基于 LLM 的智能体概念框架,包含三个组成部分:大脑、感知和行动。
智能体的“感知-大脑-行动”三者交互可以类比为**“眼睛看路→大脑决策→手脚执行”**的闭环过程,以下是简化版技术交互逻辑:
一、基础交互流程(以扫地机器人为例)
-
感知 → 大脑
- 感知层:激光雷达扫描房间,摄像头识别障碍物,碰撞传感器检测碰撞。
- 数据传递:将原始数据(如激光点云、图像像素)转换为结构化信息(如“前方50cm有桌子腿”)。
- 类比:眼睛看到“前方有障碍物” → 神经传递信号到大脑。
-
大脑 → 行动
- 决策过程:
- 知识库:调用地图记忆(“客厅沙发区需重点清扫”)。
- 推理算法:规划路径(“绕过桌子腿,沿墙边清扫”)。
- 输出指令:生成行动序列(“右转30度,前进40cm,启动吸尘”)。
- 类比:大脑分析“障碍物位置”→ 决定“绕行路线”。
- 决策过程:
-
行动 → 感知(闭环反馈)
- 执行反馈:
- 轮速传感器检测实际移动距离(发现打滑)。
- 重新规划:调整路径补偿误差(“实际移动30cm,需再前进10cm”)。
- 类比:脚步打滑 → 大脑修正“再走一步”。
- 执行反馈:
二、关键交互技术点
-
数据格式标准化
- 感知→大脑:统一用JSON/Protobuf传递结构化数据(如
{"object": "chair", "distance": 1.2}
)。 - 大脑→行动:通过API调用或消息队列(如ROS的
/cmd_vel
话题发布速度指令)。
- 感知→大脑:统一用JSON/Protobuf传递结构化数据(如
-
实时性要求
- 感知延迟:激光雷达需<100ms完成扫描+处理(否则机器人会撞墙)。
- 决策速度:大脑需在50ms内生成新路径(避免卡在角落)。
- 类比:看到红灯到踩刹车需在0.5秒内完成。
-
异常处理机制
- 感知失效:若摄像头被遮挡,切换至激光雷达主导导航。
- 行动受阻:轮子卡住时触发“挣扎模式”(前后抖动脱困)。
- 类比:盲人用拐杖探测地面(多传感器冗余)。
三、简单交互图示
[感知模块]
│ 发送: {"障碍物":"桌子","距离":0.5m}
↓
[大脑模块]
│ 查询知识库: "桌子周围需缓慢移动"
│ 运行算法: A*路径规划
│ 生成指令: {"速度":0.2m/s,"转向":15°}
↓
[行动模块]
│ 执行: 电机控制轮子转向
│ 反馈: 实际移动0.18m(误差-0.02m)
↑
[大脑重规划]
│ 修正指令: 再前进0.02m
四、常见交互模式对比
模式 | 特点 | 示例场景 |
---|---|---|
同步交互 | 感知→大脑→行动严格顺序执行 | 工业机械臂抓取物体 |
异步交互 | 感知持续更新,大脑动态调整行动 | 自动驾驶避让突然冲出的行人 |
事件驱动 | 特定感知触发紧急行动 | 智能家居火灾报警自动关燃气 |
五、家庭场景类比
想象你是一个智能体:
- 感知:闻到焦味(烟雾传感器)、听到警报声(麦克风)。
- 大脑:
- 知识库:“焦味+警报=可能火灾”。
- 推理:“需先确认火源,再通知家人”。
- 行动:
- 打开手机电筒查看厨房(行动1)。
- 发现锅烧干后关火(行动2)。
- 发送微信通知家人(行动3)。
- 反馈:
- 如果关火后焦味消失 → 确认处理成功。
- 如果仍闻到焦味 → 重新检查其他房间。
这种交互模式使得智能体能够像人类一样感知环境变化→动态调整策略→验证执行效果,形成持续优化的闭环系统。