3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

简介: 3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持说话人日志、说话人识别、语种识别、多模态识别和重叠说话人检测。
  2. 技术:结合声学、语义和视觉信息,采用EEND网络和无监督聚类技术。
  3. 应用:适用于会议记录、法庭记录、广播电视制作、电话客服和安全监控等场景。

正文(附运行示例)

3D-Speaker 是什么

公众号: 蚝油菜花 - 3D-Speaker

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,旨在通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。

3D-Speaker的最新更新增强了多说话人日志功能,提升了识别效率和准确性,适用于大规模对话数据的高效处理。

3D-Speaker 的主要功能

  • 说话人日志:将音频划分为属于不同说话人的多个段落,识别出每个说话人的开始和结束时间。
  • 说话人识别:确定音频中说话人的身份。
  • 语种识别:识别音频中说话人所使用的语言。
  • 多模态识别:结合声学、语义、视觉信息,增强识别能力,尤其是在复杂声学环境中。
  • 重叠说话人检测:能识别出音频中任意说话人重叠的区域。

3D-Speaker 的技术原理

  • 声学信息处理:声学编码器提取包含说话人信息的声学特征,应用数据增强算法提高特征提取的鲁棒性。
  • 视觉信息融合:分析和提取人物脸部活动特征,基于视觉-音频多模态检测模块识别出当前画面中正在说话的人物信息。
  • 语义信息融合:结合语义信息,将说话人日志任务转化为对识别的文本内容进行说话人区分,使用基于Bert模型的对话预测和说话人转换预测模块提取语义中的说话人信息。
  • 端到端说话人日志(EEND):采用EEND网络直接输出每个说话人的语音活动检测结果,识别任意说话人重叠区域。
  • 无监督聚类:结合传统的“特征提取-无监督聚类”框架进行全局人数检测,输出粗粒度的说话人ID段落结果。

如何运行 3D-Speaker

安装 3D-Speaker

git clone https://github.com/modelscope/3D-Speaker.git && cd 3D-Speaker
conda create -n 3D-Speaker python=3.8
conda activate 3D-Speaker
pip install -r requirements.txt

运行实验

# 说话人验证:ERes2NetV2 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-eres2netv2/
bash run.sh

# 说话人验证:CAM++ 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-cam++/
bash run.sh

# 说话人验证:ECAPA-TDNN 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-ecapa/
bash run.sh

使用预训练模型进行推理

# 安装 modelscope
pip install modelscope

# ERes2Net 训练于 200k 标记说话人
model_id=iic/speech_eres2net_sv_zh-cn_16k-common

# ERes2NetV2 训练于 200k 标记说话人
model_id=iic/speech_eres2netv2_sv_zh-cn_16k-common

# CAM++ 训练于 200k 标记说话人
model_id=iic/speech_campplus_sv_zh-cn_16k-common

# 运行 CAM++ 或 ERes2Net 推理
python speakerlab/bin/infer_sv.py --model_id $model_id

# 运行批量推理
python speakerlab/bin/infer_sv_batch.py --model_id $model_id --wavs $wav_list

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 知识图谱
从“看图说话”到“脑补世界”:多模态大模型的进化之路
从“看图说话”到“脑补世界”:多模态大模型的进化之路
266 63
|
2月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
243 1
|
5月前
|
存储 机器学习/深度学习 数据可视化
结合多模态RAG和异步调用实现大模型内容
文章探讨了如何利用多模态大模型和工程优化手段提升物流理赔业务效率。核心方案包括:通过多模态RAG技术实现图片查重,结合异步调用方法优化货损识别功能。
361 36
结合多模态RAG和异步调用实现大模型内容
|
5月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1082 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
5月前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
850 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
4月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
本文介绍了阿里集团A+流量分析平台的日志查询优化方案,针对万亿级日志数据的写入与查询挑战,提出基于Flink、Paimon和StarRocks的技术架构。通过Paimon存储日志数据,结合StarRocks高效计算能力,实现秒级查询性能。具体包括分桶表设计、数据缓存优化及文件大小控制等措施,解决高并发、大数据量下的查询效率问题。最终,日志查询耗时从分钟级降至秒级,显著提升业务响应速度,并为未来更低存储成本、更高性能及更多业务场景覆盖奠定基础。
|
5月前
|
存储 人工智能 监控
通过阿里云Milvus与通义千问VL大模型,快速实现多模态搜索
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
2月前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
356 1
|
3月前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
626 9

热门文章

最新文章