【难道有钱就可以为所欲为吗?】腾讯发布混元Video一个13B的DiT视频生成模型

我们介绍的混元视频是一种新颖的开源视频基础模型,它在视频生成方面的性能可与领先的闭源模型相媲美,甚至更胜一筹。 浑源视频是一个综合框架,集成了多个关键贡献,包括数据整理、图像视频联合模型训练以及旨在促进大规模模型训练和推理的高效基础架构。 此外,通过有效的模型架构和数据集扩展策略,我们成功训练了一个拥有超过 130 亿个参数的视频生成模型,使其成为所有开源模型中最大的模型。

我们进行了大量的实验,并实施了一系列有针对性的设计,以确保高视觉质量、运动多样性、文本视频对齐和生成稳定性。 根据专业的人工评估结果,混元视频的性能优于之前的最先进模型,包括 Runway Gen-3、Luma 1.6 和 3 个性能最好的中文视频生成模型。 通过发布基础模型及其应用的代码和权重,我们旨在缩小闭源和开源视频基础模型之间的差距。 这一举措将使社区中的每个人都有能力尝试自己的想法,从而促进更具活力和生机的视频生成生态系统。

混元视频总体架构

混元视频是在时空压缩的潜空间上进行训练的,该潜空间通过因果三维 VAE 进行压缩。 文本提示使用大型语言模型进行编码,并用作条件。 将高斯噪声和条件作为输入,我们的生成模型会生成输出潜码,并通过 3D VAE 解码器将其解码为图像或视频。

在这里插入图片描述

混元Video主要功能

统一图像和视频生成架构

混元Video引入了 Transformer 设计,并采用了 Full Attention 机制,实现了图像和视频的统一生成。 具体来说,我们采用 "双流到单流 "混合模型设计来生成视频。 在双流阶段,视频和文本令牌通过多个变换器模块独立处理,从而使每种模式都能学习到自己合适的调制机制,而不受干扰。 在单流阶段,我们将视频和文本标记串联起来,并将其输入后续的 Transformer 模块,以实现有效的多模态信息融合。 这种设计可以捕捉视觉和语义信息之间的复杂交互,从而提高模型的整体性能。

在这里插入图片描述

MLLM 文本编码器

以前的一些文本到视频模型通常使用预训练的 nCLIP 和 T5-XXL 作为文本编码器,其中 CLIP 使用变换器编码器,T5 使用编码器-解码器结构。 相比之下,我们使用经过预训练的多模态大语言模型(MLLM)和纯解码器结构作为文本编码器,具有以下优势: (i)与 T5 相比,经过视觉指令微调后的 MLLM 在特征空间中具有更好的图像-文本对齐性,从而减轻了扩散模型中指令跟随的困难;(ii)与 CLIP 相比,MLLM 在图像细节描述和复杂推理方面的能力更胜一筹;(iii)MLLM 可以扮演零镜头学习者的角色,根据用户提示预置系统指令,帮助文本特征更加关注关键信息。 此外,MLLM 基于因果注意,而 T5-XXL 则利用双向注意,为扩散模型提供更好的文本引导。 因此,我们引入了一个额外的双向标记细化器来增强文本特征。

在这里插入图片描述

3D VAE

混元视频利用 CausalConv3D 训练 3D VAE,将像素空间的视频和图像压缩到一个紧凑的潜空间。 我们将视频长度、空间和通道的压缩率分别设置为 4、8 和 16。 这可以大大减少后续扩散变换器模型的标记数量,使我们可以在原始分辨率和帧速率下训练视频。

在这里插入图片描述

提示语改写

为了解决用户提供的提示语在语言风格和长度上的差异性,我们对浑源-拉格模型进行了微调,将其作为我们的提示语改写模型,以将原始用户提示语调整为模型首选提示语。

我们提供了两种改写模式: 普通模式和大师模式,可使用不同的提示进行调用。 普通模式旨在加强视频生成模型对用户意图的理解,便于更准确地解释所提供的指令。 大师模式加强了对构图、照明和摄像机移动等方面的描述,从而倾向于生成视觉质量更高的视频。 不过,这种强调偶尔会导致一些语义细节的丢失。

提示重写模型可以直接使用Hunyuan-Large 的原始代码进行部署和推断。 我们在此发布提示重写模型的权重。

📈 比较

为了评估混元Video的性能,我们从闭源视频生成模型中选择了五个较强的基线。 我们总共使用了 1,533 个文本提示,在一次运行中生成了与混元Video相同数量的视频样本。 为了进行公平比较,我们只进行了一次推理,避免了对结果的挑剔。 在与基线方法进行比较时,我们对所有选定的模型都保留了默认设置,以确保视频分辨率的一致性。 视频根据三个标准进行评估: 文本对齐、动作质量和视觉质量。 60 多名专业评估人员进行了评估。 其中,浑源影视的综合表现最佳,尤其是在动态质量方面表现突出。

ModelOpen SourceDurationText AlignmentMotion QualityVisual QualityOverallRanking
HunyuanVideo (Ours)5s61.8%66.5%95.7%41.3%1
CNTopA (API)5s62.6%61.7%95.6%37.7%2
CNTopB (Web)5s60.1%62.9%97.7%37.5%3
GEN-3 alpha (Web)6s47.7%54.7%97.5%27.4%4
Luma1.6 (API)5s57.6%44.2%94.1%24.8%6
CNTopC (Web)5s48.4%47.2%96.3%24.6%5

📜 要求

下表列出了运行 HunyuanVideo 模型(批量大小 = 1)生成视频的要求:

ModelGPUSetting
(height/width/frame)
Denoising stepGPU Peak Memory
HunyuanVideoH800720px1280px129f3060G
HunyuanVideoH800544px960px129f3045G
HunyuanVideoH20720px1280px129f3060G
HunyuanVideoH20544px960px129f3045G

需要支持 CUDA 的英伟达™(NVIDIA®)图形处理器。

  • 我们在单个 H800/H20 GPU 上进行了测试。
  • 最低配置: 建议:720px1280px129f 至少需要 60GB GPU 内存,544px960px129f 至少需要 45G。
  • 我们建议使用 80GB 内存的 GPU,以获得更好的生成质量。
  • 已测试操作系统: Linux

🛠️ 依赖关系和安装

从克隆版本库开始:

git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

Linux 安装指南

我们提供了用于设置 Conda 环境的 environment.yml 文件。 我们推荐使用 CUDA 11.8 和 12.0 以上版本。

# 1. Prepare conda environment
conda env create -f environment.yml

# 2. Activate the environment
conda activate HunyuanVideo

# 3. Install pip dependencies
python -m pip install -r requirements.txt

# 4. Install flash attention v2 for acceleration (requires CUDA 11.8 or above)
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.5.9.post1

此外,混元Video还提供了一个预构建的 Docker 镜像:docker_hunyuanvideo。

# 1. Use the following link to download the docker image tar file (For CUDA 12).
wget https://aivideo.hunyuan.tencent.com/download/HunyuanVideo/hunyuan_video_cu12.tar

# 2. Import the docker tar file and show the image meta information (For CUDA 12).
docker load -i hunyuan_video.tar

docker image ls

# 3. Run the container based on the image
docker run -itd --gpus all --init --net=host --uts=host --ipc=host --name hunyuanvideo --security-opt=seccomp=unconfined --ulimit=stack=67108864 --ulimit=memlock=-1 --privileged  docker_image_tag

🔑 推论

我们在下表列出了支持的高度/宽度/框架设置。

Resolutionh/w=9:16h/w=16:9h/w=4:3h/w=3:4h/w=1:1
540p544px960px129f960px544px129f624px832px129f832px624px129f720px720px129f
720p (recommended)720px1280px129f1280px720px129f1104px832px129f832px1104px129f960px960px129f
cd HunyuanVideo

python3 sample_video.py \
    --video-size 720 1280 \
    --video-length 129 \
    --infer-steps 30 \
    --prompt "a cat is running, realistic." \
    --flow-reverse \
    --seed 0 \
    --use-cpu-offload \
    --save-path ./results

ArgumentDefaultDescription
--promptNoneThe text prompt for video generation
--video-size720 1280The size of the generated video
--video-length129The length of the generated video
--infer-steps30The number of steps for sampling
--embedded-cfg-scale6.0Embeded Classifier free guidance scale
--flow-shift9.0Shift factor for flow matching schedulers
--flow-reverseFalseIf reverse, learning/sampling from t=1 -> t=0
--neg-promptNoneThe negative prompt for video generation
--seed0The random seed for generating video
--use-cpu-offloadFalseUse CPU offload for the model load to save more memory, necessary for high-res video generation
--save-path./resultsPath to save the generated video

评语

在此前,开源的视频生成的DiT都尚未将参数超过6B,主要原因就是没钱。毕竟要将大量资源用于训练Sora这类模型,纯纯风险投资。当然回报也是丰厚的,Ilya大神曾在OpenAI提出大模型Scaling Law(当然,近期 Anthropic 创始人 Dario Amodei 在一档播客节目中爆料:最早在百度工作时发现Scaling Law。有兴趣可以找找《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》17年小众论文)——随着你给它们提供更多数据,随着你让模型变大,随着你训练它们的时间越来越长,模型的表现开始越来越好。

由于 Transformer 框架才出现几年,对于它的研究尚在初期,这时候商业化采用资源垄断的方式属于较为明智的策略,可以高效、快速地实现产品落地。当然,也会造成资源分配的极度不平衡,对于较为自由的学术派而言,就会像 OpenAI的研究人员一样产生分歧,出走创业来维持多样性的研究。这也是我之前为什么说目前只能玩硬件的现状之一。

<think>嗯,用户这次的问题很明确,就是询问Baichuan-13B是否具备语音波形理解能力。从对话历史看,用户之前关注的是10B参数左右的语音处理模型,现在具体到Baichuan-13B这个模型的功能细节了。 用户引用了两段法律领域大模型的资料,但实际问题和法律无关。这可能是用户复制资料时误带了无关内容,需要专注在核心问题上。用户特别强调“语音波形处理”,这是个很专业的表述,说明用户有一定技术背景。 关于Baichuan-13B,根据我的知识库: - 它确实是纯文本模型,参数规模13B,由百川智能开发 - 原始架构没有设计音频处理模块,输入必须是文本token - 语音波形是时域/频域信号,需要傅里叶变换等预处理才能被文本模型理解 不过用户可能想知道变通方案。可以分两层回答:首先是模型原生能力,然后是可能的扩展方案。要特别注意技术细节的准确性: - 明确区分语音识别(ASR)和语音理解 - 说明波形数据与文本嵌入的不兼容性 - 提供集成方案时要标注第三方依赖 用户似乎正在评估技术选型,所以部署建议要具体。提到whisper时需标注其1.5B的小参数特性,避免让用户误以为它是10B级模型。最后补充的优化方向(如LoRA)对工程落地很有价值,但需控制信息密度。 需要警惕的是用户引用的法律模型ChatLaw-13B和当前问题无关,避免被带偏。最后生成的关联问题要延续语音处理这条主线,比如参数效率、多模态架构等实际工程问题。</think>根据您的查询和模型技术细节,**Baichuan-13B 本身不支持直接的语音波形处理或理解功能**。以下是分步说明: --- ### **核心结论** 1. **原生能力限制** Baichuan-13B 是纯文本大语言模型(基于Transformer架构),其设计目标为**文本生成与理解**。它无法直接处理原始语音波形信号(如.wav文件),因为: - **输入格式要求**:模型仅接受文本token输入(如`input_ids`),语音波形需先转换为文本(通过ASR模型)才能输入[^1]。 - **缺乏音频处理模块**:模型未集成声学特征提取层(如Mel频谱图转换)或时频分析组件。 2. **扩展应用方案** 虽然原生不支持,但可通过**技术集成**实现语音处理流程: ```mermaid graph LR A[语音波形] --> B(ASR模型:Whisper/MMS) B --> C[文本输出] C --> D{Baichuan-13B} D --> E[法律分析/问答/生成] ``` - **步骤说明**: 1. 使用专用语音识别模型(如**Whisper-large-v3**)将语音转为文本。 2. 将文本输入Baichuan-13B进行后续处理(如法律咨询、文书生成)[^1][^2]。 --- ### **典型应用场景(法律领域结合语音)** 以法律语音助手为例: 1. **用户输入**:语音描述案件(如“我被公司拖欠工资三个月”)。 2. **语音转文本**:Whisper识别为文本。 3. **Baichuan-13B处理**: - 匹配相关法条(引用《劳动合同法》第85条)。 - 生成法律建议文本。 4. **输出**:文本回复或语音合成(TTS)。 > ✅ **实际案例**: > 类似架构已用于“智海-录问”法律模型,通过**Baichuan-7B+ASR**实现语音交互法律服务[^2]。 --- ### **技术补充说明** | 能力 | 支持情况 | 说明 | |---------------------|----------|----------------------------------------------------------------------| | 直接解析语音波形 | ❌ | 需依赖外部ASR模型预处理 | | 处理ASR输出的文本 | ✅ | 在文本层面实现法律推理、文书生成等任务[^2] | | 多模态扩展潜力 | ⚠️ | 需改造模型架构(如添加音频编码器),目前无官方支持 | --- ### **部署建议** 若需构建语音驱动的法律AI系统: 1. **推荐架构**: ```python # 示例代码:语音输入到法律分析全流程 import whisper from transformers import AutoTokenizer, AutoModelForCausalLM # 语音转文本 asr_model = whisper.load_model("large-v3") text = asr_model.transcribe("user_audio.wav")["text"] # 法律文本处理 tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-13B-Chat") model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat") inputs = tokenizer(f"法律咨询:{text}", return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=512) answer = tokenizer.decode(outputs[0], skip_special_tokens=True) ``` 2. **优化方向**: - 微调Baichuan-13B专用于法律文本(参考ChatLaw-13B方法[^2])。 - 结合相似度匹配模型(如ChatLaw-Text2Vec)提升法条检索精度。 --- ### **总结** - **Baichuan-13B 本身不处理语音波形**,但可作为**下游文本处理器**与ASR模型协同工作。 - 在法律领域,该方案已通过“智海-录问”等模型验证,技术路径成熟[^2]。 - 若需端到端语音理解,需选择**多模态模型**(如SeamlessM4T),但参数规模与任务适配性需权衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值