活动介绍

阿里云发布并开源 Qwen2-Audio,实现语音聊天与音频分析功能

preview
共1个文件
txt:1个
需积分: 0 0 下载量 199 浏览量 更新于2025-09-01 收藏 415B ZIP 举报
资源下载链接为: https://pan.xunlei.com/s/VOZ0lA81jBOa2dk25PPChxcIA1?pwd=xqbx 本文介绍大规模音频语言模型 Qwen2-Audio 的最新进展,该模型可接收多种音频信号输入,根据语音指令完成音频分析或直接生成文本响应。 模型支持两种不同的音频交互模式:一是语音对话模式,用户无需输入文本,即可与 Qwen2-Audio 自由进行语音交互;二是音频分析模式,交互过程中用户可提供音频与文本指令,供模型分析。目前 Qwen2-Audio 系列已发布两款模型,分别是 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct,并介绍了该模型三阶段训练流程的整体概况。 在13个标准基准测试上对 Qwen2-Audio 的能力进行评估,涉及自动语音识别(ASR)、Chat-Benchmark-Music 等任务,所用数据集包括 Fleurs(dev 分区)、MusicCaps(dev 分区)等。 需说明的是,文中呈现的评估结果基于原始训练框架的初始模型,框架转换为 Hugging Face 后,分数出现一定波动,以下为完整评估结果(先展示论文中初始模型的结果): 已提供所有评估脚本以复现结果,详情可参考 eval_audio/EVALUATION.md。 Qwen2-Audio 的代码已集成到最新版 Hugging Face Transformers 中,建议通过源码构建(否则可能出现错误)。 提供简单示例说明如何使用 Transformers 调用 Qwen2-Audio 和 Qwen2-Audio-7B-Instruct,运行前需配置环境、安装所需包,且模型对30秒以内的音频片段处理效果最佳。支持语音对话、音频分析、批量推理三种推理模式,也可运行 Qwen2-Audio 预训练基础模型;特别建议中国大陆
身份认证 购VIP最低享 7 折!
30元优惠券