你是否梦想用一张照片和一段音频,快速生成一个“会说话的数字人”?腾讯开源的 Sonic 项目正是为此而生。
Sonic 是一款轻量级的数字人口型同步模型,通过输入一张人物照片和一段语音音频,就能自动生成嘴型精准、表情自然的视频片段,广泛适用于虚拟数字人、虚拟主播、AI 视频解说等场景。
先给大家看看效果:👇
,时长00:31
数字人视频效果
Sonic 介绍
Sonic 是由腾讯与浙江大学联合开发的一款音频驱动肖像动画框架,腾讯研究人员实验结果显示,Sonic 在多个指标上超越其他模型。在 FID(衡量生成图像质量,数值越低越好)指标上有明显优势,在 Sync - C(衡量口型同步准确性,数值越高越好)指标上表现出色。主观评估中,志愿者对其视频质量、流畅性、身份保持等方面评价很高。
功能特点
- 精准的唇部同步
能精准对齐音频与唇部动作,确保说话内容与嘴型完美匹配。
- 丰富的表情与动作
生成多样化且自然的面部表情和头部运动,使动画表现力和生动感十足。
- 长时序稳定性
生成长视频时能保证人物身份一致性,避免 “变脸” 等问题。
- 多样化视频生成
支持不同风格图像(如卡通、写实)和多种分辨率的视频生成。
应用场景
- 虚拟主播
为虚拟主播生成自然的表情和动作,使其根据音频内容生动展示。
- 动画制作
帮助动画创作者快速生成动画角色的口型和表情动画,提高制作效率。
- 游戏开发
生成逼真的 NPC 表情和动作,增强游戏沉浸感。
- 社交媒体
为平台生成个性化数字人视频内容,吸引用户关注。
- 在线教育、智能客服
以逼真的数字人形象进行教学和服务,提升用户体验。
Sonic 的核心优势:
-
无需3D建模,仅靠一张人脸图像就能合成逼真动态。
-
基于回归式口型建模,对齐音频驱动表情变化。
-
输出效果自然流畅,适配真实人脸或二次元动漫人脸。
-
模型轻量、推理速度快,支持集成到如 ComfyUI 等工作流中。
Sonic 实战步骤
1、部署环境
1)点击ComfyUI镜像,准备开始部署
2)点击配置&部署按钮
3)填写自定义集群信息—>点击部署按钮
4)部署完成之后,选择Notes.txt 显示登录地址
5)点击运行,无卡模式下,下载模型文件
6)修改GPU模型,更新部署
7)部署完成之后,选择Notes.txt 显示登录地址
2、运行工作流
1)请下载工作流 在ComfyUI 中上传该工作流。
https://github.com/lqquan/alayanew/blob/master/ComfyUI/sonic/comfyui-sonic-comfyui-wiki.com.json)显示工作流如下
2) 下载下面的图片,将使用它作为输入图像
3)请下载下面的音频,我们将使用它作为输入音频
https://github.com/lqquan/alayanew/blob/master/ComfyUI/sonic/sonic.MP3
4)点击运行,就会出现文章开头的视频。
Sonic 的强大之处,不仅在于其轻量级、快速生成的能力,更在于它所代表的开源精神。
目前,Sonic 已完全开源权重与代码,开发者和研究人员可自由获取、使用、修改相关模型参数,在原有基础上进行二次开发与定制优化。你可以将 Sonic 集成进现有工作流,或结合其它 AI 工具(如 TTS、Stable Diffusion)打造更丰富的虚拟人应用场景。
此外,Sonic 的 GitHub 仓库中提供了详细的使用文档与推理示例,即便你不是深度学习专家,也能轻松上手。对于内容创作者、教育从业者、AI 应用开发者来说,Sonic 都是一个低门槛、高潜力的选择。
未来,无论你想打造一个 AI 虚拟主播、数字人客服,还是为自己的创意视频加点“灵魂”,Sonic 都可能是你最合适的起点。
🔗 快速入门 Sonic:
官网介绍:https://jixiaozhong.github.io/Sonic/
GitHub 源码:https://github.com/jixiaozhong/Sonic