python调用火山引擎大模型实现人工智能语音聊天机器人

最新推荐文章于 2025-08-09 17:19:50 发布

xingdiango

最新推荐文章于 2025-08-09 17:19:50 发布

阅读量859

点赞数 9

CC 4.0 BY-SA版权

文章标签：火山引擎人工智能机器人 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingdiango/article/details/148231867

#创作灵感#

高校人工智能专业课程实训项目
个人项目实践知识总结

最近高校邀请我去做学校的课程实训项目，要求我出个项目，不过因为我只会软件类的，因此选择使用python调用字节跳动旗下的语音及大模型接口来实现一个语音智能聊天机器人，有点类似微信的语音消息聊天。

思路与架构：

实现思路

调用录音接口->生成语音文件
将语音文件内容识别成文字
将识别后的文字请求到聊天大模型进行返回消息
将聊天大模型返回的文字内容，进行语音合成
播放语音合成的语音文件

原理参考火山引擎的语音实时通话-青青这个实践应用，只不过我这里设计的不是实时通话，而是语音消息的发送，类似于微信的发送语音消息，而这里的类似于语音电话。

架构图

这是官方应用广场青青的架构图，我这里参考它的架构图的原理实现。

简单解释下这个架构图：

这个应用使用的是web的b/s架构，通过在线语音录制后，通过API网关将语音通过websocket长连接协议进行实时传输，传递给后台的Dobao-流式语音识别接口，识别出文字结果后，将识别结果给到后端的SSE（火山引擎中的 SSE（Server-Side Encryption） 是对象存储服务 TOS（Torch Object Storage）提供的一项服务器端加密功能），然后通过SSE服务将文本结果给到Dobao-pro-32k的语言大模型，大模型会进行分析处理和回答，将回答的消息通过websocket长连接协议再转发给Dobao-语音合成接口，最后将合成后的结果通过websocket长连接协议进行流式播放，得到一个完整的语音聊天智能应用。

python+火山引擎实现语音对话功能

（1）语音录入

先进行语音录入，只不过不需要websocket长连接，因为我不需要实时通话。

录音参考脚本：Python Audio 库详解-腾讯云开发者社区-腾讯云

（2）语音识别（ASR）

录入完成后，需进行语音识别，底层就会调用对应的语音识别接口，只不过我不使用流式语音识别，我这里使用一句话识别。

使用火山引擎的流式语音识别 API 将用户的语音输入转换为文本。
配置 ASR 的相关参数，如 AppId、AccessToken 等。

2.1 使用火山引擎的语音技术的语音识别功能

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xingdiango 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。