【免费】阿里云发布并开源Qwen2-Audio，实现语音聊天与音频分析功能资源-CSDN下载

共1个文件

txt：1个

需积分: 0 199 浏览量更新于2025-09-01 收藏 415B ZIP 举报

资源下载链接为： https://pan.xunlei.com/s/VOZ0lA81jBOa2dk25PPChxcIA1?pwd=xqbx 本文介绍大规模音频语言模型 Qwen2-Audio 的最新进展，该模型可接收多种音频信号输入，根据语音指令完成音频分析或直接生成文本响应。模型支持两种不同的音频交互模式：一是语音对话模式，用户无需输入文本，即可与 Qwen2-Audio 自由进行语音交互；二是音频分析模式，交互过程中用户可提供音频与文本指令，供模型分析。目前 Qwen2-Audio 系列已发布两款模型，分别是 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct，并介绍了该模型三阶段训练流程的整体概况。在13个标准基准测试上对 Qwen2-Audio 的能力进行评估，涉及自动语音识别（ASR）、Chat-Benchmark-Music 等任务，所用数据集包括 Fleurs（dev 分区）、MusicCaps（dev 分区）等。需说明的是，文中呈现的评估结果基于原始训练框架的初始模型，框架转换为 Hugging Face 后，分数出现一定波动，以下为完整评估结果（先展示论文中初始模型的结果）：已提供所有评估脚本以复现结果，详情可参考 eval_audio/EVALUATION.md。 Qwen2-Audio 的代码已集成到最新版 Hugging Face Transformers 中，建议通过源码构建（否则可能出现错误）。提供简单示例说明如何使用 Transformers 调用 Qwen2-Audio 和 Qwen2-Audio-7B-Instruct，运行前需配置环境、安装所需包，且模型对30秒以内的音频片段处理效果最佳。支持语音对话、音频分析、批量推理三种推理模式，也可运行 Qwen2-Audio 预训练基础模型；特别建议中国大陆

收起资源包目录