手把手实战：一张图 + 一段音频，快速生成数字人视频！

原创已于 2025-06-04 16:12:12 修改 · 1.4k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-06-04 16:11:39 首次发布

47 篇文章

订阅专栏

你是否梦想用一张照片和一段音频，快速生成一个“会说话的数字人”？腾讯开源的 Sonic 项目正是为此而生。

Sonic 是一款轻量级的数字人口型同步模型，通过输入一张人物照片和一段语音音频，就能自动生成嘴型精准、表情自然的视频片段，广泛适用于虚拟数字人、虚拟主播、AI 视频解说等场景。

先给大家看看效果：👇

，时长00:31

数字人视频效果

Sonic 介绍

Sonic 实战步骤

1、部署环境

1）点击ComfyUI镜像，准备开始部署

2）点击配置&部署按钮

3）填写自定义集群信息—>点击部署按钮

4）部署完成之后，选择Notes.txt 显示登录地址

5）点击运行，无卡模式下，下载模型文件

6）修改GPU模型，更新部署

7）部署完成之后，选择Notes.txt 显示登录地址

2、运行工作流

1）请下载工作流在ComfyUI 中上传该工作流。

https://github.com/lqquan/alayanew/blob/master/ComfyUI/sonic/comfyui-sonic-comfyui-wiki.com.json）显示工作流如下

2) 下载下面的图片，将使用它作为输入图像

3）请下载下面的音频，我们将使用它作为输入音频

https://github.com/lqquan/alayanew/blob/master/ComfyUI/sonic/sonic.MP3

4)点击运行，就会出现文章开头的视频。

Sonic 的强大之处，不仅在于其轻量级、快速生成的能力，更在于它所代表的开源精神。

目前，Sonic 已完全开源权重与代码，开发者和研究人员可自由获取、使用、修改相关模型参数，在原有基础上进行二次开发与定制优化。你可以将 Sonic 集成进现有工作流，或结合其它 AI 工具（如 TTS、Stable Diffusion）打造更丰富的虚拟人应用场景。

此外，Sonic 的 GitHub 仓库中提供了详细的使用文档与推理示例，即便你不是深度学习专家，也能轻松上手。对于内容创作者、教育从业者、AI 应用开发者来说，Sonic 都是一个低门槛、高潜力的选择。

未来，无论你想打造一个 AI 虚拟主播、数字人客服，还是为自己的创意视频加点“灵魂”，Sonic 都可能是你最合适的起点。

🔗 快速入门 Sonic：

官网介绍：https://jixiaozhong.github.io/Sonic/

GitHub 源码：https://github.com/jixiaozhong/Sonic