- 博客(345)
- 资源 (2)
- 收藏
- 关注
原创 Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
VoiceAssistant-400K 的数据集。audio token:SNAC的码本,7级。SNAC 的不同级别,码本的预测粒度不同;
2025-08-11 16:03:12
66
原创 MinMo[2025.1]
8b 模型,140 万小时,在TTS/ASR/speech2speech 任务上进行对齐;asr延迟约为 100 毫秒,全双工延迟理论约为 600 毫秒,整体约为 800 毫秒可以实现的任务:口语对话、多语言语音识别、语音翻译、情感识别和说话人分析MinMo 能够生成与用户指定情绪相对应的语音, 方言、语速以及模仿特定声音。demo架构: sense voice encoder + qwen instruct LLM + cosyvoice2。
2025-08-11 14:21:26
284
原创 Step-audio系列
训练130B的模型model_arch : 用130B的模型,生成数据,用于3B 模型的蒸馏训练,小模型具有很强的指令跟随能力;模型能力:指令控制:情感,方言(粤语,四川话),(RAP/Singing、无伴奏合唱)增强智能:agent 配合两种音频tokenparallel linguistic (16.7Hz, 1024-codebook): 音素和语言特征,Paraformer encoder + VQ。
2025-08-11 14:20:08
332
原创 speech2speech论文汇总
增强副语言的理解能力;和step-audio相比模型size 更小,引入CoT和RL 改进效果,引入RAG改善幻觉问题6800 亿个 token 的文本数据和 800 万小时的真实和合成音频数据上训练补充了 speech2speech translation的任务;训练130B的模型model_arch : 用130B的模型,生成数据,用于3B 模型的蒸馏训练,小模型具有很强的指令跟随能力;模型能力:指令控制:情感,方言(粤语,四川话),(RAP/Singing、无伴奏合唱)
2025-07-31 13:51:48
668
原创 音效生成:Kling-Foley & MM-Audio
仅用这个position embedding 还不足以保持对齐稳定,因此还引入了synchformer:audio & vision 模态的对齐。从 flux2024 工作中引入音频专用模块,在不牺牲多模态能力的情况下,使用相同的参数使网络更深。这种架构允许模型根据输入有选择地关注不同的模态,支持audio-vision和audio-text数据的联合训练。,引入learnable duration embeddings ,和视频/文本中提取的global conditioning features混合;
2025-06-30 13:14:27
611
原创 Audio Tokens的思考
我们使用 SALMon 和 Zero-resource 基准分析每个分词器(tokenizer)在训练声学语言模型方面的有效性。,因此直接用token ,训练下游分类任务和生成任务的有效性。Audio 和 Music 任务。声学指标(SALMon 评估套件)Codebook 大小的影响。离散token与连续emb。
2025-06-27 18:36:02
896
原创 F5-TTS & F5RTTS
diffusion-tts,不需要显式的phn-level or char-level 对齐信息;相比于E2-TTS 改进:增加text encoder-conv2Next v2 结构,先对文本进行编码,再和音频拼接,能更好的处理语义信息,缓解length gap 带来的收敛困难,对齐错误问题;其它改进项:sway sampling,
2025-06-16 10:54:17
450
原创 强化学习概念&代码实现 PPO & DPO & GRPO
要有奖励函数,但是不能是单一的绝对值奖励(最终目标奖励),这样会使得一些小的优化step 因为奖励太少/没有而被忽略;建立baseline,每次相对于baseline (critic)的改进是奖励,这个baseline 也是会学习 & 调整的;防止过度更新:对每次的奖励设置clip,并且限制新策略不会比旧策略偏离太远;
2025-06-12 10:55:28
446
原创 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
LLM 预测连续embedding,直接接DiT。和的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss;离散token 更适用于文本任务,图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好(casual attention),要么计算开销很大。
2025-05-30 17:56:44
986
原创 cosyvoice3
用了更大量、多样的训练样本;直接基于token 做强化学习(WER/Speaker simi/Emotion)文章写的有点糙,后边很多sft 的方法只放结果不说实验细节。
2025-05-30 11:20:41
387
原创 Minimax-speech-hd
speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;
2025-05-29 20:41:00
264
原创 flow-matching 之学习matcha-tts & cosyvoice
【代码】flow-matching 之学习matcha-tts & cosyvoice。
2025-05-08 14:15:23
763
原创 SPARK-TTS
只用单个码本,使用BiCodec’s decoder 将codes还原音频并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】,如果有属性控制,会使用COT的方式预测细粒度的【gender, pitch level, and speed level,semantic token】信息,如果没有属性控制,从prompt audio中提取global的信息;有一个预计开源的数据集:VoxBox 中的每个音频文件都标有性别、音高和速度。
2025-03-11 15:46:24
669
原创 IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
character-pinyin 混合编码,解决多音字问题;FSQ 代替VQ,提升码本利用率;BigVGAN2 作为decoder;
2025-03-11 11:11:57
949
原创 Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
基于音频的单个码本建模,提出X-code2探索LLM-based tts 在training time scaling 和inference time scaling的性能【spk_simi, wer】training time scaling 探索不同的数据组(8w/16w/25w speech),不同的model_size(1B/3B/8B),检测指标:inference time scaling:基于过程反馈的spk_simi,基于结果反馈的WER,以及两个融合的策略。
2025-03-07 17:38:14
424
原创 MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from SSL
continuous SSL embedding: 存储问题,scaling 问题,和其他模态的结合;semantic token: 信息损失比较多,还原高质量音频有难度;acoustic token: 多层码本,优化任务是关注流式效率和短上下文表示,通常缺乏语义信息。本文提出MMM 特征:从SSL layer的多层,kmeans得到离散表征;组成MMM 特征,在TTS 任务上,可以和acoustic token的结果持平甚至更好;结果:在ASR 任务上,可以和最好的SSL连续特征结果相当。
2025-02-27 14:44:34
272
原创 onnxruntime-gpu 如何跑起来
onnx转换的时候不需要特殊指定,infer阶段指定CUDAExecutionProvider即可实现gpu 推理,如果没有送到gpu 上,需要修改路径。输出结果是:==============测试是否使用的gpu。
2025-02-19 17:22:42
348
原创 flow-matching based TTS : VoiceBox, E2-TTS, maskGCT
用于音频编辑,降噪,ero-shot TTS,风格迁移等多种生成任务;和vall-E对比,WER更低 (5.9% vs 1.9%),spk simi 相当(0.580 vs 0.681),速度快20x,
2025-01-15 19:49:44
371
原创 强化学习之TTS 应用1
由于我们的模型生成的是30秒的片段,我们对前20秒和后20秒的质量得分进行计算,并取其平均值。因为MuLan只能输入10s的音频,MusicGen 生成的是30s的音频,对音频切段结果求average,得到reward value 在[−1;只用WER 指标的DPO,测试的WER 反而是三者最差,可能因为WER 更关注局部的bad case,而DPO 是基于整句做指标分析;IFT 有明确的情感控制;○ DPO 对训练的step敏感,适合更大的batch size,适中的step(论文选择350,图1)
2024-11-29 16:22:01
942
原创 MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;acoustic token 的encoder 来自DAC, decoder来自vocos;
2024-10-31 16:44:25
503
翻译 UniAudio
一个LLM模型做11个音频任务token的类型:Phoneme,MIDI转成frame-f0,text【机器翻译模型提取的emb+T5】,Semantic Token【Hubert 9th layer-kmeans】模型的缺点:同时有多种任务,数据的质量不能保证;可能会引入错误;1B 的模型size基于各种audio 数据,重新训练的codec,优化了判别器;基于自己的模型,8个码本 的效果更好;
2024-09-09 20:58:13
112
原创 全双工语音交互
文章目录微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)微软小冰全双工全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,
2024-09-05 19:51:59
1026
原创 DAC: High-Fidelity Audio Compression with Improved RVQGAN
Rithesh KumarDescript, Inc.2023NIPScode文章目录abstratmethodabstrat44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----method编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(spe
2024-08-30 14:19:04
645
原创 SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound
audioCodec可以将音频量化,从而复用LLM结构,但是大部分高质量的Codec码率都比较高,不利于模型训练收敛,计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。提出SemantiCodec,支持三种比特率,25/50/100;semantic encoder,使用自监督的AudioMAE,+ kmeans 聚类;基于大数据得到聚类,分类准确度有95%。
2024-08-29 17:33:21
748
1
原创 PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。
2024-08-26 19:48:15
1113
原创 Seed-TTS
因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;
2024-08-19 10:33:51
1237
原创 diffusion sampler
Karras noise schedule:名字带Karras的采样器,会在接近终点附近的几个step,noise 更小;作者对比该策略有助于实现更好的生成质量。名字中带a的,采样结果不收敛;考虑到可复现性,我们通常更喜欢可以收敛的结果。当然,如果想要稍微有些变化,可以使用 variational seed。Heun – A more accurate but slower version of Euler. 因为每步要采样两次。Ancestor Samplers:比如。
2024-08-08 20:00:55
368
原创 MELLE: Autoregressive Speech Synthesis without Vector Quantization
预测连续的mel spec代替预测VQ采样。难点在于:如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。
2024-07-30 16:14:29
1281
翻译 Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text
motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。dataset:清洗了2.7w 小时的情感数据;基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)
2024-07-24 21:47:11
126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人