系列文章目录
目录
六、隐式奖励机制下的运动多样性:基于生成对抗网络(GAN)的模仿学习
前言
@article{li2025learning,
title={Learning from Demonstrations: Feature-Based and GAN-Based Approaches},
author={Li, Chenhao and Hutter, Marco and Krause, Andreas},
journal={arXiv preprint arXiv:2507.05906},
year={2025}
}
本研究对基于特征和基于生成对抗网络(GAN)的演示学习方法进行了比较分析,重点探讨奖励函数的结构及其对策略学习的影响。基于特征的方法能够提供密集且可解释的奖励,在高保真运动模仿方面表现优异,但通常需要对参考对象进行复杂的表示,且在非结构化环境中难以实现泛化。基于 GAN 的方法则采用隐式分布式监督,能够实现可扩展性和适应性灵活性,但容易出现训练不稳定性和粗糙的奖励信号。近期两类方法的进展均指向结构化运动表示的重要性,其能够实现更平滑的过渡、可控的合成以及任务集成能力的提升。我们认为,基于特征的方法与基于 GAN 的方法之间的二分法正变得日益复杂:并非一种范式完全主导另一种,而是应根据任务特定的优先级(如保真度、多样性、可解释性和适应性)来指导选择。本研究概述了方法选择背后的算法权衡和设计考虑因素,为从演示中学习提供了一个基于原则的决策框架。
一、免责声明
关于强化学习(RL)中使用离线参考数据的术语在文献中存在较大差异。诸如模仿学习、从演示中学习和演示学习等术语常被互换使用,尽管它们指代的方法论或假设存在微妙差异。
在本调查中,我们采用“从演示中学习”(learning from demonstrations)一词来专门指代一类利用基于状态的离线参考数据来推导奖励信号(reward signal)的方法。该奖励信号量化了学习智能体与参考轨迹的行为之间的相似性,并用于指导策略优化。
该定义有意排除了基于行为克隆(behavior cloning)且需要动作注释(action annotations)的方法,例如最近的大规模操作数据集中使用的方法(例如 Gr00t N1(Bjorck 等,2025)、扩散策略(Chi 等,2023)、Gemini Robotics(Team 等,2025))。这些方法假设可以访问专家动作标签,因此与本文讨论的方法类别遵循不同的范式,后者仅基于状态观察并依赖强化学习(RL)来生成控制。
二、动机与范围
尽管从演示中学习已成为机器人学和角色动画领域广泛采用的策略,但该领域缺乏关于何时应优先选择特定方法类别(when to prefer particular classes of methods)的统一指导,例如基于特征的方法与基于生成对抗网络(GAN)的方法。从业者通常基于先例或轶事性成功选择一种方法而非另一种,而未对影响其性能的算法因素进行系统性分析。因此,基于经验成功的结论可能混淆了算法优势与奖励设计、数据选择或架构中的偶然选择。
本文的目标是提供一种基于原则的特征基于与 GAN 基于模仿方法的比较,重点关注其基本假设、归纳偏见和运行模式。本文的阐述分为两个阶段。首先,我们从物理基础控制和强化学习的视角回顾问题设置,包括基于参考轨迹的奖励函数的建模。其次,我们考察模仿方法的历史发展和当前格局,围绕其使用的奖励结构类型进行组织,即显式特征基于的建模与隐式对抗学习的度量。
我们的目标并非在一般情况下倡导某一方法优于另一方法,而是明确在何种条件下每种方法更具适用性。通过阐明涉及的权衡——包括可扩展性、稳定性、泛化能力和表示学习——我们旨在提供一个概念框架,以支持未来研究中更明智的方法选择。
三、基于物理的控制、状态和动作
在角色动画和机器人技术中,基于物理的控制(physics-based control)是指一种范例,其中智能体的行为由系统的基本物理动力学(无论是模拟的还是真实的)所控制。与显式规定轨迹(如关节角度或末端执行器姿态)不同,该方法将控制视为目标导向的优化过程,其中策略生成控制信号(control signals)(如扭矩或肌肉激活)以在物理约束下最大化目标函数。这与基于运动学(kinematics-based)或关键帧(keyframe-based)的方法形成对比,后者常忽视动力学,仅关注几何上可行但可能在物理上不合理的运动。基于物理的控制确保生成的行为不仅在运动学上有效,而且在动力学上一致( dynamically consistent)、能量守恒,并能响应交互力,使其特别适合涉及行走、平衡和在不确定或动态环境中进行物理交互的任务。
该控制范式的标准形式是马尔可夫决策过程(Markov Decision Process,MDP),由元组定义,其中
和
分别表示状态空间和动作空间。转移核
描述环境动态
,而奖励函数
将转移映射到标量奖励。智能体寻求学习一个政策
,以最大化预期折现回报
,其中
是时间
时的奖励,
是折现因子。
在这种情况下,状态 通常编码智能体的物理配置和动力学,例如关节位置、关节速度、根方向,并可能包括地形几何或物体姿势等外感受输入。动作
对应于施加到系统的控制输入,最常见的是扭矩控制设置中的关节扭矩,或 PD 控制系统中的目标位置。在生物力学模型中,动作也可以代表肌肉的激活。通过将这些元素集成到物理模拟器或物理系统中,基于物理的控制能够实现与现实世界动力学相兼容的新兴行为,使策略不仅有效,而且在物理上可行。
四、重新思考从演示中学习的方法
在从演示中学习的背景下,奖励函数通常是从参考数据(reference data)中推导出来的,而不是通过人工设计来反映任务成功或运动质量。这种设置利用记录的轨迹(通常来自动作捕捉、遥操作或其他专家来源)来定义行为相似性的概念。然后对策略进行优化,以最小化这种差异,鼓励其复制与演示数据集中一致的运动。
关键在于,演示中导出的奖励可作为纯粹的模仿目标(pure imitation objective),即策略需尽可能准确地复制演示行为,或作为正则化组件(regularizing component),在偏好学习的同时允许任务特定目标占据主导地位。这种双重作用使基于演示的奖励在探索困难且基于任务的奖励稀少或形状不佳的高维控制问题中尤为宝贵。因此,从演示中学习将奖励函数的设计从手动工程问题转变为定义或学习智能体与专家行为之间的适当相似度度量,无论是通过特征明确地,还是通过鉴别器或编码器隐含地。
尽管参考轨迹常因其视觉真实感或自然性而被重视,但这种视角低估了其算法实用性(algorithmic utility):参考数据是提升高维控制问题学习效率(learning efficiency)的关键机制。演示不仅作为约束或先验存在,更提供结构化指导(structured guidance),引导策略探索向合理且有意义的行为倾斜。
随着环境和智能体的复杂性增加,这一角色变得尤为重要。在低维环境中,精心设计的奖励函数或人工设计的课程已经证明,仅通过强化学习就足以引出复杂的行为(Rudin 等,2022)。然而,这些策略无法有效地扩展到高维状态动作空间的系统,在这些系统中,简单的探索效率低下,奖励塑造变得脆弱或难以处理。在这种情况下,演示数据为奖励或环境塑造提供了实用替代方案(practical alternative to reward or environment shaping),作为一种归纳偏置,加速了可行行为的发现。从这个角度来看,参考动作并非次要约束,而是主要学习信号(primary learning signals),尤其是在任务基于监督稀疏或难以指定的场景中。这种重新框架化证明了演示不仅可用于模仿,更是可扩展且数据高效的策略学习的基础。
五、基于特征的模仿:起源与局限性
基于特征的模仿方法可追溯至DeepMimic(Peng等,2018),该方法确立了基于显式运动匹配构建奖励信号的标准框架。在此框架中,策略通过引入一个相位变量与参考轨迹对齐,该变量作为通过运动随时间进展的学习代理。奖励通过计算策略生成的轨迹与参考轨迹之间的特征距离(如关节位置、速度、姿态和末端执行器位置)来计算,这些距离通过相位同步。如图1所示为该方法的抽象概述。

由于其密集且明确的奖励结构,这些方法在还原精细动作细节方面非常有效。然而,它们在处理多样化动作数据集时的可扩展性有限。虽然DeepMimic引入了一种one-hot动作标识符以支持多片段训练,但这种编码并未建模不同动作之间的语义或结构关系。因此,策略将每个运动片段视为独立的目标,这阻碍了泛化能力,并常导致过渡点出现不连续性。
尽管相位变量可在给定片段内处理时间对齐,但缺乏类似机制来确保跨片段的空间或语义一致性。运动之间的过渡通过运动标识符的硬切换实现,这可能导致行为突变和视觉上不自然的轨迹。该设置中缺失的是对动作的结构化表示空间——该空间既能捕捉时间进展,又能反映行为变异性的底层拓扑结构。此类表示不仅能实现行为间更平滑的过渡,还能支持插值、组合性以及对训练中未见动作的更好泛化。在这些结构化动作空间上训练的策略更能合成新行为,同时保持物理合理性和风格一致性。
六、隐式奖励机制下的运动多样性:基于生成对抗网络(GAN)的模仿学习
为解决基于特征的方法在处理多样化运动数据时的局限性,对抗性运动先验(AMP)(Peng 等,2021)引入了对抗性训练,该方法基于早期框架如 GAIL(Ho & Ermon,2016),其中假设存在专家动作标签。在AMP设置中,判别器被训练以区分由策略生成的状态转换与从参考轨迹数据集采样得到的状态转换。随着策略的改进,其转换与专家数据的相似度逐渐提高,从而降低判别器正确分类的能力。判别器的输出作为奖励信号,引导策略向行为保真度方向发展。该系统如图2所示。

从优化的角度来看,基于 GAN 的方法将策略视为一个双人最小最大游戏中的生成器(generator)。这些方法可以自然地扩展到大型和多样化的动作数据集,因为它们在短的、固定长度的过渡窗口(transition windows)(通常为 2 到 8 个坐标系)上运行,而不是在完整的轨迹上运行。这消除了基于相位或时间索引的对齐需求,使其在非结构化数据集中特别有效。此外,判别器隐式定义了运动片段间的相似性度量(similarity metric),使得行为上相似的过渡即使在时间上未对齐也能获得相似的奖励。因此,在对抗性目标下训练的策略在行为之间通常表现出更平滑的过渡,相比于依赖离散运动标识符和硬切换的方法。由于奖励是基于分布相似性(distributional similarity)定义的,而非匹配特定轨迹,AMP及相关技术非常适合风格化任务,或作为可与任务特定目标组合的通用运动先验。
尽管在多个领域(如角色动画(例如 InterPhys(Hassan 等,2023)、PACER(Rempe 等,2023))和机器人学(Escontrela 等,2022))中取得了经验上的成功,对抗性模仿引入了影响训练可靠性和策略表达能力的根本性挑战。
鉴别器饱和(Discriminator Saturation) 对抗设置中的关键挑战在于,鉴别器可能在训练早期迅速变得过于自信,尤其当策略生成的轨迹与参考分布显著偏离时。在这种情况下,鉴别器很容易正确地分类所有过渡,产生接近零的梯度,使策略没有信息丰富的奖励信号。这种现象在高维或困难的环境中尤为严重,例如崎岖地形中的移动或操作任务,在这些任务中,有意义的探索是必不可少的,但很少见。
基于Wasserstein距离的目标函数(如WASABI(Li等,2023b)和HumanMimic(Tang等,2024))旨在即使面对强大的判别器,也能保留有用的梯度和奖励信号。
模式坍缩(Mode Collapse) 另一种失败模式是行为多样性的坍缩:策略可能收敛到仅产生一小部分能够可靠地欺骗判别器的轨迹,而忽略了演示中存在的更广泛变异性。虽然判别器隐式鼓励奖励景观中的局部平滑性,但 AMP 缺乏结构化的运动表示,无法实现全局多样性或可控的行为合成。因此,生成的策略往往未能充分利用数据中存在的全部技能范围。
为克服这一局限性,多种技术通过引入潜在表示来实现对运动变异的结构化控制,如图 3 所示。

无监督方法如CASSI(Li等,2023a)、ASE(Peng等,2022)和CALM(Tessler等,2023)在运动空间中学习连续嵌入,通过优化潜在编码与观察行为之间的互信息来保持多样性。这些嵌入随后用于条件化策略,从而能够从潜在空间的不同区域生成不同的行为。其他方法则依赖于类别级别的监督来引导学习过程。例如,Multi-AMP(Vollenweider 等,2023)、CASE(Dou 等,2023)和 SMPLOlympics(Luo 等,2024)使用运动类别注释来条件化判别器和策略,从而将坍缩限制在类别特定的子区域内。相比之下,FB-CPR(Tirinzoni 等,2025)采用基于表示的解决方案,通过学习正向-反向编码来结构化判别器的反馈。其他一些扩展方法逐步训练单个运动原语(例如PHC(Luo等,2023a)、PHC+(Luo等,2023b))。通过条件技能组合器恢复动作多样性。其他方法引入变分瓶颈的表示蒸馏,如PULSE(Luo et al., 2023b),以生成可控生成的压缩且表达丰富的动作嵌入。
这些进展共同凸显了对抗性模仿学习的灵活性与复杂性。尽管基于GAN的方法能自然扩展至大规模多样化数据集,但通过添加结构化运动表示(无论是通过学习、标注还是组合获得)可显著提升训练稳定性并恢复可控且多样化的行为。
七、基于特征的模仿与结构化表示
尽管对抗性模仿方法在处理多样化参考数据时具备灵活性和可扩展性,但其实施过程存在显著的实际挑战。确保训练稳定性、管理判别器饱和以及防止模式坍缩,通常需要进行大量架构调优。这些局限性促使研究者重新关注基于特征的方法,并通过引入结构化运动表示,将其作为对抗性训练更具可解释性和可控性的替代方案。这一新方向的核心洞见在于,结构化运动表示空间对于实现行为间的平滑过渡和泛化能力至关重要。基于GAN的方法依赖于判别器隐式诱导此类表示,通常需要额外机制来提取、控制或条件化该表示,而基于特征的方法则允许显式构建运动嵌入,这些嵌入可预先计算或与策略训练并行学习。这种显式性简化了条件设置和奖励设计,通常将奖励简化为相对于参考状态的加权特征差异。此类系统可通过图4所示的结构进行抽象化。

因此,一种新的模仿方法应运而生,它保留了传统基于特征的方法的明确奖励结构,但通过表示学习(representation learning)来扩展任务和动作的范围。在许多情况下,参考坐标系或其简要摘要直接注入策略,提供指导行为的坐标系级跟踪目标。
复杂的运动表示(Sophisticated Motion Representation) 这一类方法的核心挑战在于构建支持平滑过渡和结构泛化的运动表示。紧凑的低维嵌入有助于理解运动之间的语义关系并提升样本效率。
为此,部分方法直接将参考特征或完整动作状态注入策略(例如PhysHOI(Wang等,2023)、ExBody(Cheng等,2024)、 H2O(He 等,2024b)、HumanPlus(Fu 等,2024)、MaskedMimic(Tessler 等,2024)、ExBody2(Ji 等,2024)、OmniH2O(He 等,2024a)、 AMO(Li 等,2025)、TWIST(Ze 等,2025)、GMT(Chen 等,2025)),在运动空间中保持空间一致性。其他一些方法则通过自我监督或策略条件学习来追求更抽象的嵌入。例如,ControlVAE(Yao 等,2022)、 PhysicsVAE(Won 等,2022)和 NCP(Zhu 等,2023)通过策略交互构建表示,而 VMP(Serifi 等,2024b)和 RobotMDM(Serifi 等,2024a)则利用自监督学习构建时空一致的嵌入。频域方法如 PAE(Starke 等,2022)、FLD(Li 等,2024)和 DFM(Watanabe 等,2025)通过施加运动诱导偏置来捕捉运动的周期性和分层结构。这些技术共同扩展了 DeepMimic 范式,通过超越启发式方法来泛化相位对齐和结构相似性。
模仿适应(Inflexible Imitation Adaptation) 这些基于表示的特征方法的局限性在于,它们通常依赖于显式跟踪完整轨迹,并通过密集的每步奖励强制执行。这种设计使得在辅助任务需要灵活性时难以适应或偏离参考,而这种情况在目标导向或交互密集型设置中很常见。
为解决此问题,部分方法引入了自适应放松模仿约束的机制。例如,MCP(Sleiman 等,2024)引入了当关键任务目标未达成时调整相位进度的备用机制。RobotKeyframing(Zargarbashi 等,2024)提出了一种基于变压器的注意力模型,可编码具有灵活时间间隔的任意关键帧集。ConsMimic(Wen 等,2025)仅在任务的最优性约束得到满足时才进行特征模仿。其他研究通过高层次规划组件来指定中间参考状态,例如PARC(Xu等,2025)和HMI(Fan等,2025)中的扩散模型,或直接调节学习到的运动表示的规划器(如VQ-PMC(Han等,2024), 运动先验的重新构想(Zhang et al., 2025))。
这些进展共同表明,当与结构化运动表示相结合时,基于特征的模仿具有可解释性和稳定性。然而,尽管避免了对抗性训练的不稳定性,这些方法仍受限于对显式跟踪和过度工程化表示的依赖,这可能阻碍在需要灵活偏离演示的任务中的适应性。
八、摘要:优势、局限性及未来发展方向
从演示中学习已演变为两种主要的方法论范式:基于特征的方法,其采用显式、人工设计的奖励函数;以及基于生成对抗网络(GAN)的方法,其通过鉴别器隐式塑造行为。每种方法均具备独特优势并面临特定挑战,尤其在该领域转向利用大规模、多样化且非结构化运动数据集进行学习的背景下。我们将在表1中对上述研究成果进行总结。
GAN-based |
---|
AMP (Peng et al., 2021; Escontrela et al., 2022), InterPhys (Hassan et al., 2023), |
PACER (Rempe et al., 2023), WASABI (Li et al., 2023b), HumanMimic (Tang et al., 2024), |
CASSI (Li et al., 2023a), ASE (Peng et al., 2022), CALM (Tessler et al., 2023), |
Multi-AMP (Vollenweider et al., 2023), CASE (Dou et al., 2023), |
SMPLOlympics (Luo et al., 2024), FB-CPR (Tirinzoni et al., 2025), PHC (Luo et al., 2023a), |
PHC+ (Luo et al., 2023b), PULSE (Luo et al., 2023b) |
Feature-based |
DeepMimic (Peng et al., 2018), PhysHOI (Wang et al., 2023), ExBody (Cheng et al., 2024), |
H2O (He et al., 2024b), HumanPlus (Fu et al., 2024), MaskedMimic (Tessler et al., 2024), |
ExBody2 (Ji et al., 2024), OmniH2O (He et al., 2024a), AMO (Li et al., 2025), |
TWIST (Ze et al., 2025), GMT (Chen et al., 2025), ControlVAE (Yao et al., 2022), |
PhysicsVAE (Won et al., 2022), NCP (Zhu et al., 2023), VMP (Serifi et al., 2024b), |
RobotMDM (Serifi et al., 2024a), PAE (Starke et al., 2022), FLD (Li et al., 2024), |
DFM (Watanabe et al., 2025), MCP (Sleiman et al., 2024), ConsMimic (Wen et al., 2025), |
RobotKeyframing (Zargarbashi et al., 2024), PARC (Xu et al., 2025), HMI (Fan et al., 2025), |
VQ-PMC (Han et al., 2024), Motion Priors Reimagined (Zhang et al., 2025) |
8.1 基于生成对抗网络(GAN)的方法
基于GAN的方法,如AMP及其衍生方法,通过判别器根据短过渡片段的逼真度分配奖励信号。这种框架省去了时间对齐监督,使策略能够以分布式意义上模仿运动,而非复制特定轨迹。因此,这些方法能够自然扩展到非结构化或无标签数据,实现行为之间的平滑过渡,并超越示例片段进行泛化。
近期进展通过引入潜在结构,缓解了GAN 基于模仿方法的核心挑战,即判别器饱和(discriminator saturation)和模式坍缩(mode collapse)。这些技术学习运动嵌入,同时条件化策略和判别器,从而稳定训练并支持可控行为生成。这些潜在条件化 GAN 还能在运动空间中建模语义结构,促进插值和组合性。
尽管存在这些优势,基于GAN的方法仍易受训练不稳定性(training instability)影响,需要精心设计的鉴别器,且通常对运动细节的控制较为粗糙。其隐式奖励结构可能掩盖性能调优,并需要辅助机制以实现精确的任务对齐。
8.2 基于特征的方法
相比之下,DeepMimic 等基于特征的模仿方法从特定动作特征衍生出的密集的坐标系奖励函数开始。这为动作匹配提供了强大的监督,使其在复制演示行为中的细微细节方面非常有效。然而,传统方法受限于对硬编码对齐的依赖(dependence on hard-coded alignment)和缺乏结构化动作表示(lack of structured motion representation),这限制了可扩展性和泛化性。
近期研究通过将学习到的运动表示整合到奖励和策略结构中,解决了这些限制。这些努力构建了跨片段的行为结构化隐含运动嵌入,实现了更平滑的过渡,并支持更多样化或组合性的运动。这一代基于特征的方法在保持可解释性和强奖励信号的同时,获得了一些此前仅在GAN架构中独有的灵活性。
然而,基于特征的系统在适应需要偏离参考轨迹的辅助任务或目标(adapting to auxiliary tasks or goals)时仍面临挑战。其对显式跟踪和密集监督的高度依赖,使其在动态或多目标场景中容易出现脆弱性,而这些场景恰恰需要灵活性的发挥。
Criterion | GAN-Based Methods | Feature-Based Methods |
---|---|---|
Reward signal | implicit, coarse | explicit, dense |
Scalability | high (unstructured data) | moderate (depends on representation) |
Generalization | strong with latent conditioning | strong with good embeddings |
Training stability | challenging (saturation, collapse) | stable but sensitive to inductive bias |
Interpretability | low to moderate | high |
Control | indirect (via discriminator or latent) | direct (via features or embeddings) |
Task integration | flexible | precise but less adaptable |
九、关于指标与误解
在评估基于演示的学习算法时,人们常引用诸如运动自然度、能量效率或运输成本等指标。尽管这些属性直观上具有吸引力,但它们可能成为算法性能的误导性指标。关键在于,此类指标并非算法本身固有属性,而是高度依赖于参考数据的质量与结构。例如,若通过特定算法训练的策略表现出更平滑或更节能的行为,这一结果往往反映了底层演示数据的特性,而非算法设计本身的优势。因此,将这些观察到的属性归因于学习方法,可能混淆算法能力与数据集偏见。
此外,这些高层次指标在比较算法类别时,诊断价值有限。它们无法捕捉奖励设计、训练稳定性、可扩展性或泛化能力等根本性差异。基于生成对抗网络(GAN)的方法可能因其分布式目标函数而产生视觉上更平滑的过渡,但这一优势需权衡运动多样性和跟踪精度带来的挑战。相反,基于特征的方法可能在运动学特征方面实现高保真度模仿,但因依赖结构化表示而面临泛化能力不足的问题。为了进行严格且有意义的方法比较,评估应聚焦于受算法设计直接影响的属性。这些属性包括奖励信号质量、训练稳定性、对新型运动或环境的泛化能力,以及对辅助任务的适应性。通过关注这些因素,研究人员和实践者可以更好地理解基于特征和基于GAN方法之间的操作权衡,避免过度泛化的结论,并将比较基于算法本质而非偶然的指标结果。
十、破除常见误解
尽管研究成果日益丰富,但在讨论基于 GAN 的学习与基于特征的演示学习时,误解仍然普遍存在。下面,我们将重新审视一些常见的说法,澄清其局限性,并将其置于更严谨的分析框架中。
“基于生成对抗网络(GAN)的方法能够自动构建参考动作与策略动作之间的距离度量。”
这在一定程度上是正确的。基于生成对抗网络(GAN)的方法通过鉴别器隐式学习相似性函数。然而,在早期训练阶段,该函数可能定义不明确,导致鉴别器饱和,即无论策略如何改进,鉴别器均赋予统一的高距离值。此外,鉴别器可能将与单个示例的相似性与整体分布的相似性混淆,从而引发模式坍缩。因此,尽管存在学习到的度量标准,但其实用性和稳定性高度依赖于鉴别器设计和表示质量。
“基于生成对抗网络(GAN)的方法无需人工设计特征。”
不,这种说法忽略了一个关键的实现细节:判别器对智能体状态的选定特征进行操作。选择这些特征与基于特征的方法中定义奖励成分的过程类似。特征不足可能导致鉴别器无法检测到有意义的差异,而过于复杂的输入则可能导致快速过拟合和饱和。这种权衡在涉及部分观察上下文的任务(如地形或物体交互)中尤为关键,因为特征选择对训练稳定性和收敛性有显著影响。
“基于生成对抗网络(GAN)的方法避免了对不同特征进行手动调整的奖励权重。”
不完全是这样。虽然对抗性方法避免了对奖励成分进行显式手动权重分配,但它们仍然对特征缩放和归一化敏感。输入的幅度会影响判别器的敏感性,因此起到隐式权重分配的作用。校准不当的输入可能会偏置奖励信号,从而削弱所学策略的可解释性和可靠性。
“基于生成对抗网络(GAN)的方法能够实现动作之间更平滑的过渡。”
这一结论仅适用于早期基于特征的方法,这些方法缺乏结构化表示,且依赖于片段之间的硬切换。现代基于特征的方法通过利用结构化运动嵌入,能够生成平滑且具有语义意义的过渡效果。在学习到的潜在空间中进行插值,支持时间和空间上一致的运动生成,当应用适当的表示学习时,其效果可与基于生成对抗网络(GAN)的过渡效果相媲美甚至超越。
只有基于生成对抗网络(GAN)的方法可以与任务奖励相结合。
不,基于 GAN 和基于特征的方法都可以纳入任务目标。基于特征的方法提供密集的、帧对齐的模仿奖励,当任务与参考动作密切对齐时非常有效,但当需要偏离时则不够灵活。相比之下,基于 GAN 的方法提供分布级监督,能够更好地适应辅助目标。然而,这种灵活性是以对参考的保真度较低和模式崩溃的风险为代价的。
“基于生成对抗网络(GAN)的方法在处理无结构或噪声较大的参考运动时表现更佳。”
这是一种过度简化的说法。基于生成对抗网络(GAN)的方法由于其分布式监督机制,能够对演示中的微小不一致性表现出鲁棒性。然而,这种鲁棒性往往是以牺牲精细动作细节为代价的。基于特征的方法,尤其是那些采用概率或变分模型的方法,也可以通过正则化和表示平滑有效地处理噪声。
“基于生成对抗网络(GAN)的方法具有更好的可扩展性。”
不一定。可扩展性更多取决于运动表示的质量,而非方法范式。无论是基于生成对抗网络(GAN)的方法还是基于特征的方法,只要配备适当的潜在编码,都能在大型数据集上实现可扩展性。两者的区别在于这些表示何时以及如何被学习——基于特征的方法通常依赖于监督学习或自监督学习的嵌入,而基于GAN的方法则可能通过对抗性反馈诱导表示。两种方法均无法在缺乏精心设计的情况下保证可扩展性。
基于生成对抗网络(GAN)的方法在实际部署中表现更佳。
不,选择模仿算法与模拟到真实环境的迁移效果之间没有内在联系。迁移能力主要由外部策略决定,例如领域随机化、系统识别和正则化。虽然基于生成对抗网络(GAN)的方法可能对辅助奖励更具灵活性,但它们对正则化也更为敏感,这可能导致人们错误地认为某些正则化方法在这些方法中更有效。
“基于特征的方法对未见过的运动输入具有更好的泛化能力。”
泛化能力更多地取决于运动表示空间的质量和组织结构,而非奖励结构。无论是基于生成对抗网络(GAN)的方法还是基于特征的方法,只要配备了结构良好的嵌入,都能实现有效的泛化。失败模式并非源于方法本身,而是由于诱导偏置不足、训练数据多样性不够,或时间建模不佳所致。
基于特征的方法更容易实现。”
不一定。设计健壮的特征基于系统涉及选择适当的奖励特征、构建相位函数或嵌入,以及管理时间对齐。这些任务可能与设计鉴别器一样复杂,尤其是在目标是跨任务或环境进行扩展时。此外,有效的潜在表示通常需要预训练和谨慎的架构选择,以避免崩溃或解耦失败。
十一、结语
本研究通过奖励结构、可扩展性、泛化能力和表示能力等维度,探讨了基于演示学习的两大主要范式:基于特征的方法与基于生成对抗网络(GAN)的方法。两者的核心区别不仅在于架构组件,更在于其监督哲学:显式、人工设计的奖励与隐式、对抗性学习的目标。
基于特征的方法(Feature-based methods)提供密集且可解释的奖励,使策略与参考轨迹紧密绑定,因此非常适合需要高保真度复制演示动作的任务。然而,由于需要手动指定特征和对齐参考,它们在泛化方面常常遇到困难,尤其是在多片段或非结构化设置中。
基于GAN的方法(GAN-based methods)则通过判别性目标提供更灵活、数据驱动的奖励结构。这使其能自然扩展至多样化数据集,并支持更平滑的过渡和行为插值。然而,它们常面临训练稳定性、奖励稀疏性以及精细动作细节丢失等挑战。
重要的是要认识到,许多通常归因于一种范式的的问题在另一种范式中以不同形式重新出现(many problems commonly attributed to one paradigm reappear in different forms in the other)。例如,GAN中的模式坍缩反映了基于特征的方法中运动表示的脆弱性。同样,尽管基于特征的方法为运动跟踪提供了强有力的指导,但当 rigid 奖励定义与辅助任务或动态环境不匹配时,它们可能无法泛化或适应。
与其将这两种范式视为相互排斥,近期趋势指向一种 convergence 视角(convergent perspective),强调结构化运动表示的核心地位。无论这些表示源自自监督学习、潜在编码还是手动设计的摘要,它们均作为连接两种方法优势的桥梁:显式奖励的可解释性和可控性,以及对抗性训练的可扩展性和适应性。
最终,选择基于特征还是基于GAN的方法并非普遍优越性的问题。相反,应根据应用的具体约束和优先级进行决策(specific constraints and priorities of the application):保真度与多样性、可解释性与灵活性,或训练简便性与大规模泛化能力。理解这些权衡及其与奖励结构和运动表示的关系,对于设计健壮、可扩展且表达力强的模仿学习系统至关重要。
References
- Bjorck et al. (2025)Johan Bjorck, Fernando Castañeda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, et al.Gr00t n1: An open foundation model for generalist humanoid robots.arXiv preprint arXiv:2503.14734, 2025.
- Chen et al. (2025)Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, and Xiaolong Wang.Gmt: General motion tracking for humanoid whole-body control.arXiv preprint arXiv:2506.14770, 2025.
- Cheng et al. (2024)Xuxin Cheng, Yandong Ji, Junming Chen, Ruihan Yang, Ge Yang, and Xiaolong Wang.Expressive whole-body control for humanoid robots.arXiv preprint arXiv:2402.16796, 2024.
- Chi et al. (2023)Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake, and Shuran Song.Diffusion policy: Visuomotor policy learning via action diffusion.The International Journal of Robotics Research, pp. 02783649241273668, 2023.
- Dou et al. (2023)Zhiyang Dou, Xuelin Chen, Qingnan Fan, Taku Komura, and Wenping Wang.C· ase: Learning conditional adversarial skill embeddings for physics-based characters.In SIGGRAPH Asia 2023 Conference Papers, pp. 1–11, 2023.
- Escontrela et al. (2022)Alejandro Escontrela, Xue Bin Peng, Wenhao Yu, Tingnan Zhang, Atil Iscen, Ken Goldberg, and Pieter Abbeel.Adversarial motion priors make good substitutes for complex reward functions.In 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 25–32. IEEE, 2022.
- Fan et al. (2025)Yahao Fan, Tianxiang Gui, Kaiyang Ji, Shutong Ding, Chixuan Zhang, Jiayuan Gu, Jingyi Yu, Jingya Wang, and Ye Shi.One policy but many worlds: A scalable unified policy for versatile humanoid locomotion.arXiv preprint arXiv:2505.18780, 2025.
- Fu et al. (2024)Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, and Chelsea Finn.Humanplus: Humanoid shadowing and imitation from humans.arXiv preprint arXiv:2406.10454, 2024.
- Han et al. (2024)Lei Han, Qingxu Zhu, Jiapeng Sheng, Chong Zhang, Tingguang Li, Yizheng Zhang, He Zhang, Yuzhen Liu, Cheng Zhou, Rui Zhao, et al.Lifelike agility and play in quadrupedal robots using reinforcement learning and generative pre-trained models.Nature Machine Intelligence, 6(7):787–798, 2024.
- Hassan et al. (2023)Mohamed Hassan, Yunrong Guo, Tingwu Wang, Michael Black, Sanja Fidler, and Xue Bin Peng.Synthesizing physical character-scene interactions.In ACM SIGGRAPH 2023 Conference Proceedings, pp. 1–9, 2023.
- He et al. (2024a)Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, and Guanya Shi.Omnih2o: Universal and dexterous human-to-humanoid whole-body teleoperation and learning.arXiv preprint arXiv:2406.08858, 2024a.
- He et al. (2024b)Tairan He, Zhengyi Luo, Wenli Xiao, Chong Zhang, Kris Kitani, Changliu Liu, and Guanya Shi.Learning human-to-humanoid real-time whole-body teleoperation.In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 8944–8951. IEEE, 2024b.
- Ho & Ermon (2016)Jonathan Ho and Stefano Ermon.Generative adversarial imitation learning.Advances in neural information processing systems, 29, 2016.
- Ji et al. (2024)Mazeyu Ji, Xuanbin Peng, Fangchen Liu, Jialong Li, Ge Yang, Xuxin Cheng, and Xiaolong Wang.Exbody2: Advanced expressive humanoid whole-body control.arXiv preprint arXiv:2412.13196, 2024.
- Li et al. (2023a)Chenhao Li, Sebastian Blaes, Pavel Kolev, Marin Vlastelica, Jonas Frey, and Georg Martius.Versatile skill control via self-supervised adversarial imitation of unlabeled mixed motions.In 2023 IEEE international conference on robotics and automation (ICRA), pp. 2944–2950. IEEE, 2023a.
- Li et al. (2023b)Chenhao Li, Marin Vlastelica, Sebastian Blaes, Jonas Frey, Felix Grimminger, and Georg Martius.Learning agile skills via adversarial imitation of rough partial demonstrations.In Conference on Robot Learning, pp. 342–352. PMLR, 2023b.
- Li et al. (2024)Chenhao Li, Elijah Stanger-Jones, Steve Heim, and Sangbae Kim.Fld: Fourier latent dynamics for structured motion representation and learning.arXiv preprint arXiv:2402.13820, 2024.
- Li et al. (2025)Jialong Li, Xuxin Cheng, Tianshu Huang, Shiqi Yang, Ri-Zhao Qiu, and Xiaolong Wang.Amo: Adaptive motion optimization for hyper-dexterous humanoid whole-body control.arXiv preprint arXiv:2505.03738, 2025.
- Luo et al. (2023a)Zhengyi Luo, Jinkun Cao, Kris Kitani, Weipeng Xu, et al.Perpetual humanoid control for real-time simulated avatars.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10895–10904, 2023a.
- Luo et al. (2023b)Zhengyi Luo, Jinkun Cao, Josh Merel, Alexander Winkler, Jing Huang, Kris Kitani, and Weipeng Xu.Universal humanoid motion representations for physics-based control.arXiv preprint arXiv:2310.04582, 2023b.
- Luo et al. (2024)Zhengyi Luo, Jiashun Wang, Kangni Liu, Haotian Zhang, Chen Tessler, Jingbo Wang, Ye Yuan, Jinkun Cao, Zihui Lin, Fengyi Wang, et al.Smplolympics: Sports environments for physically simulated humanoids.arXiv preprint arXiv:2407.00187, 2024.
- Peng et al. (2018)Xue Bin Peng, Pieter Abbeel, Sergey Levine, and Michiel Van de Panne.Deepmimic: Example-guided deep reinforcement learning of physics-based character skills.ACM Transactions On Graphics (TOG), 37(4):1–14, 2018.
- Peng et al. (2021)Xue Bin Peng, Ze Ma, Pieter Abbeel, Sergey Levine, and Angjoo Kanazawa.Amp: Adversarial motion priors for stylized physics-based character control.ACM Transactions on Graphics (ToG), 40(4):1–20, 2021.
- Peng et al. (2022)Xue Bin Peng, Yunrong Guo, Lina Halper, Sergey Levine, and Sanja Fidler.Ase: Large-scale reusable adversarial skill embeddings for physically simulated characters.ACM Transactions On Graphics (TOG), 41(4):1–17, 2022.
- Rempe et al. (2023)Davis Rempe, Zhengyi Luo, Xue Bin Peng, Ye Yuan, Kris Kitani, Karsten Kreis, Sanja Fidler, and Or Litany.Trace and pace: Controllable pedestrian animation via guided trajectory diffusion.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 13756–13766, 2023.
- Rudin et al. (2022)Nikita Rudin, David Hoeller, Philipp Reist, and Marco Hutter.Learning to walk in minutes using massively parallel deep reinforcement learning.In Conference on Robot Learning, pp. 91–100. PMLR, 2022.
- Serifi et al. (2024a)Agon Serifi, Ruben Grandia, Espen Knoop, Markus Gross, and Moritz Bächer.Robot motion diffusion model: Motion generation for robotic characters.In SIGGRAPH Asia 2024 Conference Papers, pp. 1–9, 2024a.
- Serifi et al. (2024b)Agon Serifi, Ruben Grandia, Espen Knoop, Markus Gross, and Moritz Bächer.Vmp: Versatile motion priors for robustly tracking motion on physical characters.In Computer Graphics Forum, volume 43, pp. e15175. Wiley Online Library, 2024b.
- Sleiman et al. (2024)Jean-Pierre Sleiman, Mayank Mittal, and Marco Hutter.Guided reinforcement learning for robust multi-contact loco-manipulation.In 8th Annual Conference on Robot Learning (CoRL 2024), 2024.
- Starke et al. (2022)Sebastian Starke, Ian Mason, and Taku Komura.Deepphase: Periodic autoencoders for learning motion phase manifolds.ACM Transactions on Graphics (ToG), 41(4):1–13, 2022.
- Tang et al. (2024)Annan Tang, Takuma Hiraoka, Naoki Hiraoka, Fan Shi, Kento Kawaharazuka, Kunio Kojima, Kei Okada, and Masayuki Inaba.Humanmimic: Learning natural locomotion and transitions for humanoid robot via wasserstein adversarial imitation.In 2024 IEEE International Conference on Robotics and Automation (ICRA), pp. 13107–13114. IEEE, 2024.
- Team et al. (2025)Gemini Robotics Team, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Travis Armstrong, Ashwin Balakrishna, Robert Baruch, Maria Bauza, Michiel Blokzijl, et al.Gemini robotics: Bringing ai into the physical world.arXiv preprint arXiv:2503.20020, 2025.
- Tessler et al. (2023)Chen Tessler, Yoni Kasten, Yunrong Guo, Shie Mannor, Gal Chechik, and Xue Bin Peng.Calm: Conditional adversarial latent models for directable virtual characters.In ACM SIGGRAPH 2023 Conference Proceedings, pp. 1–9, 2023.
- Tessler et al. (2024)Chen Tessler, Yunrong Guo, Ofir Nabati, Gal Chechik, and Xue Bin Peng.Maskedmimic: Unified physics-based character control through masked motion inpainting.ACM Transactions on Graphics (TOG), 43(6):1–21, 2024.
- Tirinzoni et al. (2025)Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother, Mateusz Guzek, Anssi Kanervisto, Yingchen Xu, Alessandro Lazaric, and Matteo Pirotta.Zero-shot whole-body humanoid control via behavioral foundation models.arXiv preprint arXiv:2504.11054, 2025.
- Vollenweider et al. (2023)Eric Vollenweider, Marko Bjelonic, Victor Klemm, Nikita Rudin, Joonho Lee, and Marco Hutter.Advanced skills through multiple adversarial motion priors in reinforcement learning.In 2023 IEEE International Conference on Robotics and Automation (ICRA), pp. 5120–5126. IEEE, 2023.
- Wang et al. (2023)Yinhuai Wang, Jing Lin, Ailing Zeng, Zhengyi Luo, Jian Zhang, and Lei Zhang.Physhoi: Physics-based imitation of dynamic human-object interaction.arXiv preprint arXiv:2312.04393, 2023.
- Watanabe et al. (2025)Ryo Watanabe, Chenhao Li, and Marco Hutter.Dfm: Deep fourier mimic for expressive dance motion learning.arXiv preprint arXiv:2502.10980, 2025.
- Wen et al. (2025)Kehan Wen, Chenhao Li, Junzhe He, and Marco Hutter.Constrained style learning from imperfect demonstrations under task optimality.arXiv preprint arXiv:2507.09371, 2025.
- Won et al. (2022)Jungdam Won, Deepak Gopinath, and Jessica Hodgins.Physics-based character controllers using conditional vaes.ACM Transactions on Graphics (TOG), 41(4):1–12, 2022.
- Xu et al. (2025)Michael Xu, Yi Shi, KangKang Yin, and Xue Bin Peng.Parc: Physics-based augmentation with reinforcement learning for character controllers.arXiv preprint arXiv:2505.04002, 2025.
- Yao et al. (2022)Heyuan Yao, Zhenhua Song, Baoquan Chen, and Libin Liu.Controlvae: Model-based learning of generative controllers for physics-based characters.ACM Transactions on Graphics (TOG), 41(6):1–16, 2022.
- Zargarbashi et al. (2024)Fatemeh Zargarbashi, Jin Cheng, Dongho Kang, Robert Sumner, and Stelian Coros.Robotkeyframing: Learning locomotion with high-level objectives via mixture of dense and sparse rewards.arXiv preprint arXiv:2407.11562, 2024.
- Ze et al. (2025)Yanjie Ze, Zixuan Chen, JoÃĢo Pedro AraÚjo, Zi-ang Cao, Xue Bin Peng, Jiajun Wu, and C Karen Liu.Twist: Teleoperated whole-body imitation system.arXiv preprint arXiv:2505.02833, 2025.
- Zhang et al. (2025)Zewei Zhang, Chenhao Li, Takahiro Miki, and Marco Hutter.Motion priors reimagined: Adapting flat-terrain skills for complex quadruped mobility.arXiv preprint arXiv:2505.16084, 2025.
- Zhu et al. (2023)Qingxu Zhu, He Zhang, Mengting Lan, and Lei Han.Neural categorical priors for physics-based character control.ACM Transactions on Graphics (TOG), 42(6):1–16, 2023.