【GitHub开源AI精选】MultiTalk:中山大学与美团联合打造的音频驱动多人对话视频生成框架

系列篇章💥

No.文章
1【GitHub开源AI精选】LLM 驱动的影视解说工具:Narrato AI 一站式高效创作实践
2【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破
3【GitHub开源AI精选】哈工大(深圳)& 清华力作 FilmAgent:剧本自动生成 + 镜头智能规划,开启 AI 电影制作新时代
4【GitHub开源AI精选】Lumina - Image 2.0 文生图模型,以小参数量实现高分辨率多图生成新突破
5【GitHub开源AI精选】探索 Mobile-Agent:X-PLUG 推出的创新型移动智能操作代理
6【GitHub开源AI精选】吴恩达团队开源VisionAgent:用自然语言开启计算机视觉新时代
7【GitHub开源AI精选】Oumi:一站式AI开发平台,涵盖训练、评估与部署全流程
8【GitHub开源AI精选】深入剖析RealtimeSTT:开源实时语音转文本库的强大功能与应用
9【GitHub开源AI精选】PodAgent:多智能体协作播客生成框架,自动化打造高质量播客,赋能内容创作与品牌传播
10【GitHub开源AI精选】OpenManus开源AI工具:3小时复刻Manus,39.5k星
11【GitHub开源AI精选】OpenGlass:大模型赋能的开源方案,25美元打造智能眼镜,支持语音控制+AR叠加
12【GitHub开源AI精选】AppAgentX:西湖大学发布可自主进化的手机智能体,实现GUI操作的高效与智能
13【GitHub开源AI精选】Agent-S架构揭秘:低代码+多模态融合的智能体新范式
14【GitHub开源AI精选】Open-Interface:大模型驱动的计算机“自动驾驶”系统|自然语言操控的自动化工具
15【GitHub开源AI精选】2025年AI工程师必备!AgentOps五大功能重构智能体开发流程
16【GitHub开源AI精选】LangManus:社区驱动的多智能体AI自动化框架,开启复杂任务处理新纪元
17【GitHub开源AI精选】autoMate:AI 驱动的本地自动化助手,用自然语言解锁高效办公,让电脑任务自己动起来
18【GitHub开源AI精选】Sitcom-Crafter:北航联合港中文等高校打造的剧情驱动3D动作生成系统
19【GitHub开源AI精选】Local Deep Researcher:本地化部署的AI研究助手,零门槛开启智能研究
20【GitHub开源AI精选】Browser Use:开源AI自动化工具,让AI像人类一样操控网页
21【GitHub开源AI精选】LLaVA-Med:微软打造的生物医学领域多模态AI助手,助力医疗智能化
22【GitHub开源AI精选】RF-DETR:Roboflow 的实时目标检测模型『边缘设备鹰眼』,低至160FPS的工业级检测利器
23【GitHub开源AI精选】MegaTTS 3:字节跳动开源语音利器,吊打VALL-E,自然度逼近真人录音
24【GitHub开源AI精选】LocAgent:斯坦福联合耶鲁大学等机构推出的代码问题定位智能体
25【GitHub开源AI精选】WhisperX:70倍实时语音转录!革命性词级时间戳与多说话人分离技术
26【GitHub开源AI精选】Crawl4AI:LLM专属极速开源爬虫利器、1秒处理百万级数据
27【GitHub开源AI精选】Oliva:开源语音RAG助手,一句话秒搜海量数据,多AI协作颠覆传统搜索
28【GitHub开源AI精选】UFO²:微软开源的 Windows 桌面 Agent 操作系统,开启智能自动化新时代
29【GitHub开源AI精选】ebook2audiobook:AI驱动的电子书转有声书利器,支持1107种语言+语音克隆
30【GitHub开源AI精选】WebThinker:赋能大型推理模型的自主科研新范式
31【GitHub开源AI精选】ZeroSearch:阿里巴巴开源的大模型搜索引擎框架,无需真实搜索引擎交互
32【GitHub开源AI精选】Toolkami:极简AI Agent框架,七种工具实现高效轻量化开发
33【GitHub开源AI精选】Docext:NanoNets 打造的文档提取利器,本地化、高效能、免费开源
34【GitHub开源AI精选】SketchVideo:手残党福音!草图秒变大片,快手黑科技让创作效率飙升300%
35【GitHub开源AI精选】NLWeb:微软开源的自然语言交互利器,让网站秒变智能AI应用
36【GitHub开源AI精选】ScrapeGraphAI:基于LLM的智能爬虫,多页面爬取、语音生成,开启数据提取新纪元
37【GitHub开源AI精选】FaceShot:同济大学联合上海 AI Lab 推出的无需训练肖像动画生成框架
38【GitHub开源AI精选】Minion Agent:开源界的“全能王”,深度研究、自动规划全搞定
39【GitHub开源AI精选】AgenticSeek:开源本地通用AI Agent,打造自主执行任务的智能助手
40【GitHub开源AI精选】Morphik:开源多模态检索增强生成工具,助力AI应用开发
41【GitHub开源AI精选】TEN VAD:高性能实时语音活动检测系统,助力AI对话系统高效交互
42【GitHub开源AI精选】Google AI Edge Gallery:谷歌赋能的离线AI模型探索利器
43【GitHub开源AI精选】PandasAI:一键开启数据对话时代,非技术用户也能轻松上手
44【GitHub开源AI精选】ContentV:字节跳动开源的高效文生视频模型框架,助力AI视频生成技术突破
45【GitHub开源AI精选】VRAG-RL:阿里通义推出的多模态RAG推理框架,助力视觉信息理解与生成
46【GitHub开源AI精选】MultiTalk:中山大学与美团联合打造的音频驱动多人对话视频生成框架


前言

随着人工智能技术的飞速发展,音频和视频生成领域不断涌现出令人瞩目的创新成果。在这一背景下,中山大学深圳校区、美团和香港科技大学联合推出了 MultiTalk,这是一个开创性的音频驱动多人对话视频生成框架。它通过结合多声道音频输入、参考图像和文本提示,能够生成包含多人互动且口型与音频一致的视频内容,为影视制作、教育、广告等多个领域带来了全新的可能性。
在这里插入图片描述

一、项目概述

MultiTalk 是一个新型的音频驱动多人对话视频生成框架,由中山大学深圳校区、美团和香港科技大学联合开发。它能够根据多声道音频输入、参考图像和文本提示,生成包含多人互动且口型与音频一致的视频内容。通过创新的 Label Rotary Position Embedding (L-RoPE) 方法,MultiTalk 有效解决了多声道音频与人物绑定的问题,并借助部分参数训练和多任务训练策略,保留了基础模型的指令跟随能力。这一框架在多个数据集上表现出色,展现了强大的视频生成能力,适用于生成卡通、歌唱及遵循指令的视频等多种场景。
在这里插入图片描述

二、技术原理

(一)音频驱动的视频生成框架

MultiTalk 基于 Diffusion-in-Transformer (DiT) 的视频扩散模型架构,结合 3D Variational Autoencoder (VAE),对视频的时空维度进行压缩,高效地生成视频内容。3D VAE 用于视频的编码和解码,将视频帧压缩到低维空间,便于模型处理。基于扩散模型的逆过程,逐步从噪声中重建视频内容。

(二)音频特征提取

为了将音频特征与视频内容相结合,MultiTalk 引入了音频交叉注意力机制。基于 Wav2Vec 提取音频特征,并对音频特征进行时间维度的压缩,以匹配视频的帧率。在每个 DiT 块中添加音频交叉注意力层,让视频生成过程根据音频特征动态调整视频内容。

(三)Label Rotary Position Embedding (L-RoPE)

为了解决多声道音频与人物绑定的问题,MultiTalk 提出了 L-RoPE 方法。通过为视频中的每个人物和背景分配不同的标签范围,并基于旋转位置嵌入技术将标签信息融入到音频和视频的特征中,确保音频与人物的正确绑定。

(四)自适应人物定位

为了动态跟踪视频中每个人物的位置,MultiTalk 使用自适应人物定位方法。基于参考图像和生成视频的自注意力图,模型自动识别每个人物的位置,实现精准的音频绑定。

(五)训练策略

MultiTalk 的训练分为两个阶段:第一阶段专注于单人动画,第二阶段处理多人动画。通过部分参数训练,只更新音频交叉注意力层和音频适配器的参数,冻结其他网络参数,从而保留基础模型的指令跟随能力。此外,结合音频+图像到视频(AI2V)任务和图像到视频(I2V)任务进行多任务训练,提升模型的综合性能。

三、主要功能

(一)音频驱动的多人对话视频生成

MultiTalk 能够根据多声道音频输入、参考图像和文本提示,生成包含多人互动且口型与音频一致的视频内容。

(二)解决音频与人物绑定问题

通过 L-RoPE 方法,MultiTalk 有效解决了多声道音频与人物绑定的问题,避免音频错误绑定到错误的人物上。

(三)强大的指令跟随能力

基于部分参数训练和多任务训练策略,MultiTalk 保留了基础模型的指令跟随能力,能够根据文本提示生成符合要求的视频内容。

四、性能表现

(一)数据集表现

MultiTalk 在多个数据集上表现出色,包括 talking head、talking body 和 multi-person 数据集,展现了强大的视频生成能力。在定量评估中,MultiTalk 在多个指标上超越了其他方法,特别是在唇部同步和视频质量方面表现出色。
在这里插入图片描述

(二)计算效率

MultiTalk 的计算效率得到了显著提升。通过 TeaCache 加速技术,模型的推理速度可以提高约 2~3 倍。此外,MultiTalk 支持多 GPU 推理,能够在单个 RTX 4090 上实现 480P 视频的生成。

五、应用场景

(一)影视与娱乐

MultiTalk 可以用于动画电影、特效制作、游戏过场动画等领域,生成多人对话和互动场景,提升制作效率和视觉效果,增强观众的沉浸感。

(二)教育与培训

在在线教育、虚拟课堂、语言学习等领域,MultiTalk 可以创建互动教学视频,模拟真实对话和交流场景,提高学习效果和趣味性。

(三)广告与营销

MultiTalk 可以生成产品演示视频、虚拟客服互动视频等,增强广告吸引力,提升客户服务效率和质量,促进产品推广。

(四)社交媒体与内容创作

MultiTalk 可以制作创意多人对话视频、虚拟直播等,吸引用户关注和分享,提升内容的趣味性和互动性,增加用户粘性。

(五)智能服务

MultiTalk 可以应用于智能客服、虚拟助手等领域,生成自然流畅的交互视频,提供更人性化的服务体验,提高用户满意度。
在这里插入图片描述

六、快速使用

(一)环境搭建

  1. 创建 conda 环境并安装依赖
conda create -n multitalk python=3.10
conda activate multitalk
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
pip install -U xformers==0.0.28 --index-url https://download.pytorch.org/whl/cu121
pip install ninja psutil packaging flash_attn
pip install -r requirements.txt
conda install -c conda-forge librosa ffmpeg
  1. 下载模型权重
huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./weights/Wan2.1-I2V-14B-480P
huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./weights/chinese-wav2vec2-base
huggingface-cli download MeiGen-AI/MeiGen-MultiTalk --local-dir ./weights/MeiGen-MultiTalk
  1. 链接或复制模型文件
mv weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json_old
sudo ln -s {Absolute path}/weights/MeiGen-MultiTalk/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/
sudo ln -s {Absolute path}/weights/MeiGen-MultiTalk/multitalk.safetensors weights/Wan2.1-I2V-14B-480P/

(二)单人视频生成

  1. 使用单 GPU 进行推理
python generate_multitalk.py \
    --ckpt_dir weights/Wan2.1-I2V-14B-480P \
    --wav2vec_dir 'weights/chinese-wav2vec2-base' \
    --input_json examples/single_example_1.json \
    --sample_steps 40 \
    --mode streaming \
    --use_teacache \
    --save_file single_long_exp
  1. 在低 VRAM 环境下运行
python generate_multitalk.py \
    --ckpt_dir weights/Wan2.1-I2V-14B-480P \
    --wav2vec_dir 'weights/chinese-wav2vec2-base' \
    --input_json examples/single_example_1.json \
    --sample_steps 40 \
    --mode streaming \
    --num_persistent_param_in_dit 0 \
    --use_teacache \
    --save_file single_long_lowvram_exp

(三)多人视频生成

  1. 使用单 GPU 进行推理
python generate_multitalk.py \
    --ckpt_dir weights/Wan2.1-I2V-14B-480P \
    --wav2vec_dir 'weights/chinese-wav2vec2-base' \
    --input_json examples/multitalk_example_2.json \
    --sample_steps 40 \
    --mode streaming \
    --use_teacache \
    --save_file multi_long_exp
  1. 在低 VRAM 环境下运行
python generate_multitalk.py \
    --ckpt_dir weights/Wan2.1-I2V-14B-480P \
    --wav2vec_dir 'weights/chinese-wav2vec2-base' \
    --input_json examples/multitalk_example_2.json \
    --sample_steps 40 \
    --mode streaming \
    --num_persistent_param_in_dit 0 \
    --use_teacache \
    --save_file multi_long_lowvram_exp

七、结语

MultiTalk 作为一个开创性的音频驱动多人对话视频生成框架,为视频生成领域带来了全新的可能性。它不仅解决了多声道音频与人物绑定的难题,还通过部分参数训练和多任务训练策略保留了强大的指令跟随能力。无论是在影视制作、教育、广告还是社交媒体等领域,MultiTalk 都展现出巨大的应用潜力。如果你对这个项目感兴趣,可以通过以下链接了解更多信息:

八、项目资料

  • 项目官网:https://meigen-ai.github.io/multi-talk/
  • GitHub 仓库:https://github.com/MeiGen-AI/MultiTalk
  • HuggingFace 模型库:https://huggingface.co/MeiGen-AI/MeiGen-MultiTalk
  • arXiv 技术论文:https://arxiv.org/pdf/2505.22647

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN