一站式高质量数字人动画框架——EchoMimic-V3本地部署教程: 13 亿参数实现统一多模态、多任务人体动画生成

原创于 2025-09-08 16:57:23 发布 · 454 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #EchoMimic-V3 #数字人 #模型部署教程 #算家云 #镜像社区

模型构建专栏收录该内容

224 篇文章

订阅专栏

一、介绍

EchoMimicV3 是蚂蚁集团在8月底开源的一款高效、多模态、多任务的数字人视频生成框架，凭借13亿参数的紧凑型视频扩散模型（CVDM），实现了在多种输入条件下快速生成高质量、强泛化能力的数字人动画，为数字人动画技术带来了重要突破。

二、部署过程

快速部署及使用方法，请通过文末卡片进入算家云，参考“镜像社区”。

基础环境最低要求说明：

环境名称	版本信息
Ubuntu	22.04
Cuda	12.1.1
Python	3.10
NVIDIA Corporation	RTX 4090 D

1、在算家云构建基础镜像 Miniconda-Ubuntu-22.04-cuda12.1.1

2、更新系统

sudo apt update && sudo apt upgrade -y

更新过程中遇到下图的情况时，在命令行中输入“2”即可

3、创建虚拟环境

# 创建一个名为 echomimic_v3 的新虚拟环境，并指定 Python 版本为 3.10
conda create -n echomimic_v3 python=3.10 -y

等待安装完成

# 进入虚拟环境
conda activate echomimic_v3

4、从 github 仓库克隆项目

# (如果下载速度过慢可以开启学术代理加速)
git clone https://github.com/antgroup/echomimic_v3.git

5、安装依赖

cd echomimic_v3

pip install -r requirements.txt

安装成功

6、模型准备

模型名称	备注
Wan2.1-Fun-1.3B-InP	基础模型
wav2vec2-base	音频编码器
EchoMimicV3-preview	权重

注意：由于Wan2.1-Fun-1.3B-InP和wav2vec2-base模型已经下载到堡垒机里面，所以这里不需要下载。之后在 app_mm.py文件中修改地址即可

6.1 下载权重

创建目录
```
cd echomimic_v3
mkdir -p models
```

下载元数据（不拉大文件）

cd models
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/BadToBest/EchoMimicV3

拉取大文件

cd EchoMimicV3/transformer
git lfs pull

移动transformer文件夹

mv /echomimic_v3/models/EchoMimicV3/transformer /echomimic_v3/models

7、编辑 `app_mm.py`文件

7.1 打开 `app_mm.py`文件，找到第82行左右

修改红框部分：

7.2 打开 `app_mm.py`文件，找到第326行左右

修改红框部分：

8、运行 `app_mm.py`文件

cd echomimic_v3

python app_mm.py --server_name 0.0.0.0 --server_port 8080

运行成功

三、网页演示

出现以下 Gradio 页面，即是模型已搭建完成。