MotionGPT3: 人体动作作为第二种模态
https://github.com/OpenMotionLab/MotionGPT3
核心问题与解决思路
论文要解决的核心问题
这篇论文主要解决两个关键问题:
- 连续性问题:人体动作是连续的,但AI模型通常处理离散的词汇(token),如何让模型既能理解文本又能生成流畅的动作?
- 智能保持问题:如何在训练新的动作生成能力时,不损失原有的语言理解能力?
主要创新点
1. 双分支架构(Bimodal Architecture)
- 文本分支(Text Branch):保持原有预训练语言模型的结构和参数
- 动作分支(Motion Branch)