
VLM/RL下的精密装配与插拔:HIL-SERL/VITAL
文章平均质量分 96
RL背景之下:提升机器人泛化能力
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)
Manual2Skill:基于视觉语言模型的家具自动装配框架 摘要:新加坡国立大学等机构提出的Manual2Skill框架,通过视觉语言模型(VLM)理解家具装配手册,实现自主机器人装配。该框架首先利用GPT-4o解析手册中的抽象示意图,生成分层装配图;然后结合部件点云和手册图像预测6D装配位姿;最后通过运动规划生成无碰撞装配轨迹。实验表明,该方法能有效处理复杂的长时序装配任务,显著减少对示范数据的依赖。相比传统方法局限于简单桌面任务,Manual2Skill突破了复杂家具装配的挑战,为智能制造提供了新思路原创 2025-08-02 01:14:51 · 1588 阅读 · 0 评论 -
Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)
UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。原创 2025-07-16 16:05:39 · 2496 阅读 · 0 评论 -
WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调
毕竟未来一两月,我司长沙分部的规划是对于机械臂,考虑IL + RL结合下的方法,继续优化USB插拔、电源插拔等各种插拔场景对于人形,继续unitree_IL_lerobot,以及全身遥操、跳舞、展厅讲解针对各种插拔场景,7.4日下午,我司长沙分部同事文弱发我了一个介绍WSRL的X链接,我一看,挺不错,很有价值,也很有意义,后续准备试下,故本文先解读下一为指导将来的实践,二为分享,与更多有志于在线RL方向的同仁多交流(欢迎私我一两句的简介,邀你加入:七月:HIL-SERL/WSRL/VITAL交流原创 2025-07-06 23:23:58 · 2403 阅读 · 0 评论 -
VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)
摘要:VITAL框架通过两阶段策略(全局视觉定位+局部触觉操作)解决精密操作任务泛化难题。第一阶段利用视觉语言模型进行目标定位,第二阶段复用自中心视觉与触觉的局部策略完成毫米级操作。该方案结合模仿学习(32次演示)与强化学习微调(45分钟),通过语义数据增强保持泛化性,显著降低对场景变化的敏感性。实验显示,该方法在USB插入等任务中兼顾精度与跨环境适应性,为机器人精细操作提供新思路。(149字)原创 2025-07-03 17:01:43 · 3167 阅读 · 0 评论 -
RL微调VLA模型——从通过RLAIF微调的GRAPE,到通过在线RL改进的Re-VLA
过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我帮忙:要么是做科研想复现,要么是工厂想做自动化生产线的智能升级,要么是想通过机械臂/人形解决各种业务场景问题让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉具身的论文解读过很多之后,便会发现整个具身的技能图谱大概如下所示(建议按照从下至上的顺序看)其中,action head有基于LSTM的基于diffusion model的。原创 2024-12-31 00:02:11 · 8780 阅读 · 0 评论 -
UC伯克利HIL-SERL——结合视觉和人类示教与纠正的RL方法(直接真实环境中RL开训,可组装电脑主板和插拔USB)
机器人强化学习任务可以通过一个来定义,其中是状态观测(例如,结合机器人的本体状态信息的图像)是动作(例如,期望的末端执行器扭转)是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率而是奖励函数,编码任务最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略在实践中,策略通常建模为由神经网络参数化的高斯分布为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。原创 2024-10-31 17:09:18 · 7531 阅读 · 4 评论 -
伯克利Digit——基于下一个token预测技术预测机器人动作token:从带RL到不带RL的自回归预测
本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据,有助于未来的研究和技术发展参考文献:第二部分// 待更。原创 2024-01-28 00:00:55 · 7409 阅读 · 0 评论