写在前面:开源选手中最能打的
GLM-4-Voice,由智谱 AI 和清华大学共同研发,并发表论文 “GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot”,旨在打造智能且类人化的端到端语音聊天机器人。GLM-4-Voice 不仅支持中文和英文,进行实时语音对话,还能根据用户指令调整语音的细微差别,例如情感、语调、语速和方言。
一、模型结构:端到端语音处理,融合文本能力
GLM-4-Voice 的模型架构以自回归 Transformer 为基础,并进行了精巧的改造,实现了端到端的语音处理能力。其核心目标是在保持 LLM 强大文本处理能力的同时,赋予模型理解和生成自然语音的能力。
GLM-4-Voice 的模型架构主要由以下几个核心组件构成:
- 语音 Tokenizer (Speech Tokenizer)
负责将连续的语音波形转换为离散的 语音 Token (Speech Token),保留语义信息和部分声学信息。GLM-4-Voice 采用了 监督式语音 Tokenizer,以 12.5Hz 的帧率,超低比特率 (175bps) 高效表示语音。
创新点: 超低比特率、单码本语音 Tokenizer。
实现逻辑: 微调预训练 ASR 模型 Whisper-l