【多模态大模型】GLM-4-Voice端到端语音交互机器人VoiceAI

kakaZhui

已于 2025-02-28 13:38:03 修改

阅读量1.6k

点赞数 21

CC 4.0 BY-SA版权

分类专栏：前沿多模态大模型：论文与实战文章标签：人工智能 AIGC 机器人 chatgpt llama

于 2025-02-26 19:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kakaZhui/article/details/145877676

前沿多模态大模型：论文与实战专栏收录该内容

53 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

写在前面：开源选手中最能打的

GLM-4-Voice，由智谱 AI 和清华大学共同研发，并发表论文 “GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot”，旨在打造智能且类人化的端到端语音聊天机器人。GLM-4-Voice 不仅支持中文和英文，进行实时语音对话，还能根据用户指令调整语音的细微差别，例如情感、语调、语速和方言。

一、模型结构：端到端语音处理，融合文本能力

GLM-4-Voice 的模型架构以自回归 Transformer 为基础，并进行了精巧的改造，实现了端到端的语音处理能力。其核心目标是在保持 LLM 强大文本处理能力的同时，赋予模型理解和生成自然语音的能力。

GLM-4-Voice 的模型架构主要由以下几个核心组件构成：

语音 Tokenizer (Speech Tokenizer)
负责将连续的语音波形转换为离散的语音 Token (Speech Token)，保留语义信息和部分声学信息。GLM-4-Voice 采用了监督式语音 Tokenizer，以 12.5Hz 的帧率，超低比特率 (175bps) 高效表示语音。

创新点：超低比特率、单码本语音 Tokenizer。

实现逻辑：微调预训练 ASR 模型 Whisper-l

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

kakaZhui 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。