Grasp What You Want论文梳理

论文链接:https://arxiv.org/abs/2412.10694

这篇论文试图解决在复杂环境中,机器人通过语音指令进行精确物体抓取的问题。具体来说,它旨在解决以下几个关键问题:

1、语音指令的模糊性:当前的机器人系统在仅通过语音指令来理解人类意图时存在困难,因为语音指令往往不够精确,容易产生歧义。这导致机器人难以准确识别和定位目标物体。
2、复杂环境中的物体抓取:在杂乱无章的环境中,机器人需要能够准确地从多个物体中识别并抓取指定的目标物体。这不仅要求机器人具备强大的视觉识别能力,还需要能够处理物体的多维属性(如形状、颜色、材质等)。
3、灵巧抓取能力的不足:传统的夹持器和吸盘系统在与人类自然交互、执行复杂操作任务以及适应多样化任务方面存在局限性。现有的灵巧抓取解决方案在实际部署中面临计算成本高、数据集不足、仿真到现实的转移困难等问题。
4、语义与物体对齐的挑战:在复杂场景中,如何将人类的自然语言指令与视觉场景中的具体物体进行准确对齐是一个关键问题。这需要机器人能够理解和处理多模态信息(语音和视觉)的融合。

为了解决这些问题,论文提出了一个名为“Embodied Dexterous Grasping System (EDGS)”的系统

该系统通过融合语音指令和视觉信息,利用Vision-Language Model (VLM)来增强语义与物体的对齐,并设计了一种基于人类手部行为的鲁棒、精确且高效的抓取策略。主要通过以下几个关键模块和方法来实现其目标:

1. Referring Expression Representation Enrichment (RERE)

RERE模块通过融合语音指令和视觉信息来增强语义与物体的对齐,具体步骤如下:

语音驱动的指代表达获取:通过自适应音频捕获方法获取初始的语音指令,并将其转录为文本。
指代表达表示的丰富:利用视觉信息来补充和澄清原始文本描述,减少语言描述中的歧义。具体来说,RERE会根据视觉输入增强目标物体的语义表示,包括以下几个维度:

实例类别:通过分析视觉线索识别目标物体的类型。
颜色和形状:从视觉输入中提取颜色和几何特征,提供更清晰准确的物体视觉属性描述。
材质和纹理:识别独特的表面特征,如金属、玻璃等,以突出区分物体的材质特征。
位置:将物体在场景中的空间位置整合到描述中,进一步明确物体的位置,减少周围元素的干扰。

2. Dexterous Grasp Candidates Generation (DGCG)

DGCG模块负责从分割后的点云数据中提取物体特征,并生成一系列抓取候选动作,具体步骤如下:

物体特征提取:通过提取物体的骨架线和主成分分析(PCA)轴来确定物体的特征向量,以表示物体的方向和延伸。
抓取可行性和候选生成:结合物体特征向量和手部配置,评估抓取的可行性,并生成抓取候选动作。具体来说,通过计算手部工作空间与物体表面的交点,评估每个抓取配置的质量,并生成一系列抓取候选动作。
3. Dexterous Grasp Refinement (DGR)

DGR模块对生成的抓取候选动作进行评估和优化,以确保抓取动作的鲁棒性和高效性,具体步骤如下:

抓取质量评估:通过力闭合(Force Closure)和抓取力矩空间(Grasp Wrench Space, GWS)分析来评估每个抓取候选动作的质量。力闭合用于确定抓取姿势是否成功,而GWS分析则通过评估抓取力矩空间的凸包来量化抓取的抗干扰能力。
基于成本的运动选择:利用随机轨迹优化方法(STOMP)优化路径,选择最优的抓取动作。具体来说,通过最小化关节运动的总差异来选择最优的抓取动作,确保抓取动作的路径最短且最高效。

实验验证

论文通过一系列实验验证了EDGS系统的有效性,包括:

1. 语义丰富实验(Instruction semantic enrichment experiment)

目的:评估RERE(Referring Expression Representation Enrichment)方法在提高语义分割性能方面的有效性。
数据集:使用GraspNet-1Billion数据集,包含97,280张RGBD图像,涵盖88个物体类别,从190个不同场景中收集,每个场景包含大约10个物体,具有像素级的物体和背景注释。
方法:将RERE技术应用于GraspNet-1Billion数据集,使用三种不同的分割模型(Grounded SAM、SEEM、Florence-2)来评估其对分割精度的影响。
结果:RERE方法显著提高了所有三种模型的分割性能,具体结果如下表所示:
Grounded SAM:从44.9%提高到64.4%(提高了19.5个百分点)。
SEEM:从38.2%提高到50.4%(提高了12.2个百分点)。
Florence-2:从48.5%提高到55.8%(提高了7.3个百分点)。
在这里插入图片描述

2. 抓取成功率实验(Grasp Success Rate Experiment)
单物体抓取(Single Object Grasping):

目的:评估EDGS在真实世界场景中对不同物体的抓取成功率。
实验设置:选择了11种不同的物体,每种物体在8个随机姿态下进行抓取尝试。抓取成功定义为机器人手能够成功抓取物体,并在转移过程中保持物体不滑落。
结果:EDGS在多种物体上表现出色,具体结果如下表所示:
在这里插入图片描述

逐个物体抓取(Object-by-Object Grasping):

目的:评估EDGS在多物体抓取任务中的性能,其中物体依次从场景中移除。
实验设置:使用与DexGraspNet 2.0研究相同的物体排列,比较EDGS与其他几种最先进的方法(DexGraspNet 2.0、ISAGrasp、HGCNet、GraspTTA)的性能。
结果:EDGS在多物体抓取任务中表现出色,成功率达到95.5%,显著高于其他方法。
在这里插入图片描述

3. 应用场景实验(Application Scenario Experiments)

目的:在真实的复杂环境中评估EDGS的性能,测试其在处理各种物体类别(水果、家居用品、蔬菜)时的适应性和鲁棒性。
实验设置:将不同类别的物体放置在密集且无序的环境中,模拟真实世界中的复杂场景。
结果:EDGS在所有物体类别中均表现出色,具体结果如下表所示:
在这里插入图片描述

错误分析

物体形状复杂性:不规则形状的物体导致更高的抓取失败率,尤其是在家居用品类别中。
环境杂乱:高密度的物体排列使得目标物体的准确识别和分割更加困难,从而导致抓取失败。
动态交互:系统在处理需要精细操作的物体时偶尔会遇到困难,导致在转移阶段物体滑落。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值