【多模态大模型】GLM-4-Voice端到端语音交互机器人VoiceAI

在这里插入图片描述

写在前面:开源选手中最能打的

GLM-4-Voice,由智谱 AI 和清华大学共同研发,并发表论文 “GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot”,旨在打造智能且类人化的端到端语音聊天机器人。GLM-4-Voice 不仅支持中文和英文,进行实时语音对话,还能根据用户指令调整语音的细微差别,例如情感、语调、语速和方言。

一、模型结构:端到端语音处理,融合文本能力

GLM-4-Voice 的模型架构以自回归 Transformer 为基础,并进行了精巧的改造,实现了端到端的语音处理能力。其核心目标是在保持 LLM 强大文本处理能力的同时,赋予模型理解和生成自然语音的能力。

GLM-4-Voice 的模型架构主要由以下几个核心组件构成:

  1. 语音 Tokenizer (Speech Tokenizer)
    负责将连续的语音波形转换为离散的 语音 Token (Speech Token),保留语义信息和部分声学信息。GLM-4-Voice 采用了 监督式语音 Tokenizer,以 12.5Hz 的帧率,超低比特率 (175bps) 高效表示语音。

创新点: 超低比特率、单码本语音 Tokenizer。

实现逻辑: 微调预训练 ASR 模型 Whisper-l

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kakaZhui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值