自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(345)
  • 资源 (2)
  • 收藏
  • 关注

原创 Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

VoiceAssistant-400K 的数据集。audio token:SNAC的码本,7级。SNAC 的不同级别,码本的预测粒度不同;

2025-08-11 16:03:12 66

原创 MinMo[2025.1]

8b 模型,140 万小时,在TTS/ASR/speech2speech 任务上进行对齐;asr延迟约为 100 毫秒,全双工延迟理论约为 600 毫秒,整体约为 800 毫秒可以实现的任务:口语对话、多语言语音识别、语音翻译、情感识别和说话人分析MinMo 能够生成与用户指定情绪相对应的语音, 方言、语速以及模仿特定声音。demo架构: sense voice encoder + qwen instruct LLM + cosyvoice2。

2025-08-11 14:21:26 284

原创 Step-audio系列

训练130B的模型model_arch : 用130B的模型,生成数据,用于3B 模型的蒸馏训练,小模型具有很强的指令跟随能力;模型能力:指令控制:情感,方言(粤语,四川话),(RAP/Singing、无伴奏合唱)增强智能:agent 配合两种音频tokenparallel linguistic (16.7Hz, 1024-codebook): 音素和语言特征,Paraformer encoder + VQ。

2025-08-11 14:20:08 332

原创 大模型工程问题

2025-08-11 14:17:18 101

原创 Audio Flamingo

可以处理speech/audio/music,多种音频形态的speech2speech。

2025-08-10 23:20:36 758

原创 LLM attention 变体

2025-08-10 15:11:18 540

原创 speech2speech论文汇总

增强副语言的理解能力;和step-audio相比模型size 更小,引入CoT和RL 改进效果,引入RAG改善幻觉问题6800 亿个 token 的文本数据和 800 万小时的真实和合成音频数据上训练补充了 speech2speech translation的任务;训练130B的模型model_arch : 用130B的模型,生成数据,用于3B 模型的蒸馏训练,小模型具有很强的指令跟随能力;模型能力:指令控制:情感,方言(粤语,四川话),(RAP/Singing、无伴奏合唱)

2025-07-31 13:51:48 668

原创 LLaDA- Large Language Diffusion Models

px0​)p0​r0​L′。

2025-06-30 13:53:50 746

原创 音效生成:Kling-Foley & MM-Audio

仅用这个position embedding 还不足以保持对齐稳定,因此还引入了synchformer:audio & vision 模态的对齐。从 flux2024 工作中引入音频专用模块,在不牺牲多模态能力的情况下,使用相同的参数使网络更深。这种架构允许模型根据输入有选择地关注不同的模态,支持audio-vision和audio-text数据的联合训练。,引入learnable duration embeddings ,和视频/文本中提取的global conditioning features混合;

2025-06-30 13:14:27 611

原创 Audio Tokens的思考

我们使用 SALMon 和 Zero-resource 基准分析每个分词器(tokenizer)在训练声学语言模型方面的有效性。,因此直接用token ,训练下游分类任务和生成任务的有效性。Audio 和 Music 任务。声学指标(SALMon 评估套件)Codebook 大小的影响。离散token与连续emb。

2025-06-27 18:36:02 896

原创 F5-TTS & F5RTTS

diffusion-tts,不需要显式的phn-level or char-level 对齐信息;相比于E2-TTS 改进:增加text encoder-conv2Next v2 结构,先对文本进行编码,再和音频拼接,能更好的处理语义信息,缓解length gap 带来的收敛困难,对齐错误问题;其它改进项:sway sampling,

2025-06-16 10:54:17 450

原创 强化学习概念&代码实现 PPO & DPO & GRPO

要有奖励函数,但是不能是单一的绝对值奖励(最终目标奖励),这样会使得一些小的优化step 因为奖励太少/没有而被忽略;建立baseline,每次相对于baseline (critic)的改进是奖励,这个baseline 也是会学习 & 调整的;防止过度更新:对每次的奖励设置clip,并且限制新策略不会比旧策略偏离太远;

2025-06-12 10:55:28 446

原创 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

LLM 预测连续embedding,直接接DiT。和的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss;离散token 更适用于文本任务,图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好(casual attention),要么计算开销很大。

2025-05-30 17:56:44 986

原创 cosyvoice3

用了更大量、多样的训练样本;直接基于token 做强化学习(WER/Speaker simi/Emotion)文章写的有点糙,后边很多sft 的方法只放结果不说实验细节。

2025-05-30 11:20:41 387

原创 Minimax-speech-hd

speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;

2025-05-29 20:41:00 264

原创 BigVGAN

103。

2025-05-16 13:20:30 151

原创 Muyan-TTS & Kimi-Audio

arch:

2025-05-13 09:42:17 737

原创 flow-matching 之学习matcha-tts & cosyvoice

【代码】flow-matching 之学习matcha-tts & cosyvoice。

2025-05-08 14:15:23 763

原创 SPARK-TTS

只用单个码本,使用BiCodec’s decoder 将codes还原音频并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】,如果有属性控制,会使用COT的方式预测细粒度的【gender, pitch level, and speed level,semantic token】信息,如果没有属性控制,从prompt audio中提取global的信息;有一个预计开源的数据集:VoxBox 中的每个音频文件都标有性别、音高和速度。

2025-03-11 15:46:24 669

原创 IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

character-pinyin 混合编码,解决多音字问题;FSQ 代替VQ,提升码本利用率;BigVGAN2 作为decoder;

2025-03-11 11:11:57 949

原创 Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

基于音频的单个码本建模,提出X-code2探索LLM-based tts 在training time scaling 和inference time scaling的性能【spk_simi, wer】training time scaling 探索不同的数据组(8w/16w/25w speech),不同的model_size(1B/3B/8B),检测指标:inference time scaling:基于过程反馈的spk_simi,基于结果反馈的WER,以及两个融合的策略。

2025-03-07 17:38:14 424

原创 MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from SSL

continuous SSL embedding: 存储问题,scaling 问题,和其他模态的结合;semantic token: 信息损失比较多,还原高质量音频有难度;acoustic token: 多层码本,优化任务是关注流式效率和短上下文表示,通常缺乏语义信息。本文提出MMM 特征:从SSL layer的多层,kmeans得到离散表征;组成MMM 特征,在TTS 任务上,可以和acoustic token的结果持平甚至更好;结果:在ASR 任务上,可以和最好的SSL连续特征结果相当。

2025-02-27 14:44:34 272

原创 onnxruntime-gpu 如何跑起来

onnx转换的时候不需要特殊指定,infer阶段指定CUDAExecutionProvider即可实现gpu 推理,如果没有送到gpu 上,需要修改路径。输出结果是:==============测试是否使用的gpu。

2025-02-19 17:22:42 348

原创 flow-matching based TTS : VoiceBox, E2-TTS, maskGCT

用于音频编辑,降噪,ero-shot TTS,风格迁移等多种生成任务;和vall-E对比,WER更低 (5.9% vs 1.9%),spk simi 相当(0.580 vs 0.681),速度快20x,

2025-01-15 19:49:44 371

原创 强化学习之TTS 应用1

由于我们的模型生成的是30秒的片段,我们对前20秒和后20秒的质量得分进行计算,并取其平均值。因为MuLan只能输入10s的音频,MusicGen 生成的是30s的音频,对音频切段结果求average,得到reward value 在[−1;只用WER 指标的DPO,测试的WER 反而是三者最差,可能因为WER 更关注局部的bad case,而DPO 是基于整句做指标分析;IFT 有明确的情感控制;○ DPO 对训练的step敏感,适合更大的batch size,适中的step(论文选择350,图1)

2024-11-29 16:22:01 942

原创 RLHF之DPO

losspyw​∣x−pyl​∣x。

2024-11-18 15:57:26 442

原创 MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;acoustic token 的encoder 来自DAC, decoder来自vocos;

2024-10-31 16:44:25 503

原创 Moshi

NA​3×10−52×10−43×10−65×10−52×10−64×10−62×10−62×10−6。

2024-10-15 13:59:15 1216

翻译 FireRedTTS

DATA: 248k 数据。

2024-09-10 17:44:25 476

翻译 UniAudio

一个LLM模型做11个音频任务token的类型:Phoneme,MIDI转成frame-f0,text【机器翻译模型提取的emb+T5】,Semantic Token【Hubert 9th layer-kmeans】模型的缺点:同时有多种任务,数据的质量不能保证;可能会引入错误;1B 的模型size基于各种audio 数据,重新训练的codec,优化了判别器;基于自己的模型,8个码本 的效果更好;

2024-09-09 20:58:13 112

原创 全双工语音交互

文章目录微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)微软小冰全双工全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,

2024-09-05 19:51:59 1026

原创 DAC: High-Fidelity Audio Compression with Improved RVQGAN

Rithesh KumarDescript, Inc.2023NIPScode文章目录abstratmethodabstrat44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----method编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(spe

2024-08-30 14:19:04 645

原创 SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

audioCodec可以将音频量化,从而复用LLM结构,但是大部分高质量的Codec码率都比较高,不利于模型训练收敛,计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。提出SemantiCodec,支持三种比特率,25/50/100;semantic encoder,使用自监督的AudioMAE,+ kmeans 聚类;基于大数据得到聚类,分类准确度有95%。

2024-08-29 17:33:21 748 1

原创 PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。

2024-08-26 19:48:15 1113

原创 Seed-TTS

因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;

2024-08-19 10:33:51 1237

原创 GPT-SoVITS

【代码】GPT-SoVITS。

2024-08-14 16:40:33 587

原创 diffusion sampler

Karras noise schedule:名字带Karras的采样器,会在接近终点附近的几个step,noise 更小;作者对比该策略有助于实现更好的生成质量。名字中带a的,采样结果不收敛;考虑到可复现性,我们通常更喜欢可以收敛的结果。当然,如果想要稍微有些变化,可以使用 variational seed。Heun – A more accurate but slower version of Euler. 因为每步要采样两次。Ancestor Samplers:比如。

2024-08-08 20:00:55 368

原创 MELLE: Autoregressive Speech Synthesis without Vector Quantization

预测连续的mel spec代替预测VQ采样。难点在于:如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。

2024-07-30 16:14:29 1281

原创 Cosyvoice

监督训练得到的speech token,

2024-07-29 16:16:04 416

翻译 Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text

motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。dataset:清洗了2.7w 小时的情感数据;基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)

2024-07-24 21:47:11 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除