Monkey PilotX-CSDN博客

原创把 7B 模型塞进车规级芯片：LoRA 在自动驾驶中的极限调参指南

虽然 LoRA 在训练阶段表现出色，但真正的挑战在于如何将其部署到资源受限的车载环境中，尤其是车规级芯片（如 NVIDIA Orin-X、华为 MDC、地平线征程系列）上。LoRA 已经在自动驾驶中展现出强大的微调能力，但它的潜力远不止于此。小鹏的 XNGP 系统强调“全国都能开”，通过 LoRA 插件实现 BEV 感知模型的城市级别微调，并结合任务调度系统进行插件管理。小米 SU7 在语音座舱中部署了 7B 规模的语言模型，通过 LoRA 插件实现个性化语义理解与导航推荐，适配不同用户的语音习惯。

2025-08-13 12:55:36 622

原创从华为到小米，它们都在用这项“小模型外挂”把城市 NOA 塞进你的老车里

在自动驾驶的世界里，车企们正在悄悄使用一种叫做的技术，把原本只能在高端车型上运行的大模型，塞进你家的“老车”里。想象一下：你有一辆三年前买的车，芯片算力不高，但突然它能在城市里自动变道、识别红绿灯、甚至听懂你说“去最近的咖啡店”并自动导航过去。这不是换了硬件，而是靠一种“外挂式”的 AI 微调技术 —— LoRA。LoRA 的本质是一种轻量级的 AI 模型微调方法。传统的大模型训练需要动用大量算力和数据，而 LoRA 只需要“插入”少量参数，就能让原始模型学会新技能。

2025-08-13 12:20:37 528

原创 Self-Attention→BEVFormer：一张图看懂注意力在自动驾驶的十年进化史

最早的注意力机制由 Bahdanau 等人在机器翻译任务中提出，用于解决 RNN 编码器在长序列中信息压缩的问题。注意力机制并非始于 Transformer，它的历史可以追溯到序列建模的早期阶段，尤其是在自然语言处理（NLP）任务中。在自动驾驶系统中，注意力机制已经深入多个关键模块，从感知到决策，从多模态融合到轨迹预测。Transformer 并不只用一个注意力头，而是使用多个并行的注意力头，每个头可以学习不同的语义关系。在端到端自动驾驶架构中，注意力机制帮助模型从感知到控制的全过程中提取关键语义。

2025-08-12 12:16:54 464

原创从刷短视频到开无人车：注意力机制如何悄悄决定你的每一次点击与刹车？

在自动驾驶中，车辆摄像头会捕捉大量画面，但并不是每一帧、每一个像素都同样重要。优先识别行人、红绿灯、其他车辆；忽略不相关的背景，比如广告牌或天空。这就像人类开车时自动忽略路边的风景，而专注于前方的路况。

2025-08-12 11:04:39 484

原创 TopLiDM架构解析：DriveVLM如何融合VLM与E2E自动驾驶

自动驾驶技术近年来在感知、规划、控制等模块上取得了显著进展，尤其是端到端（End-to-End, E2E）方法的兴起，使得从传感器输入到轨迹输出的流程更加紧凑。尽管 TopLiDM 展现出强大的语义推理与规划能力，但在实际部署与持续优化过程中，仍面临一系列技术挑战。，它们通过引入大模型的语言理解能力，使自动驾驶系统具备“解释能力”和“推理能力”，不仅能输出轨迹，还能回答“为什么这么走”。的“思维链”过程，融合视觉语言模型（VLM）与传统 E2E 模型，实现更强的语义推理与决策能力。

2025-08-11 12:53:32 628

原创自动驾驶也能“思考”？揭秘TopLiDM大模型

你有没有想过，自动驾驶汽车是怎么“决定”下一步该怎么走的？过去，它们主要依靠传感器收集数据，然后通过算法直接计算出一条行驶轨迹。但这就像是“闭着眼睛走路”，只看眼前，不理解整个场景。而TopLiDM（Top-Level Driving Model）是理想汽车提出的一种新型自动驾驶思维方式。它的特别之处在于：不仅“看得见”，还“想得通”。我们可以把它类比成人类驾驶员的思考过程：👀先观察：这是城市路口，有红绿灯、行人、交警在挥手。🧠再分析：交警的手势是让我们停下，行人正在过马路。🚗最后决定。

2025-08-11 12:53:27 679

原创 AI 也会“翻旧账”？RAG 让自动驾驶秒变老司机

RAG 就像是给自动驾驶装了一个“记忆搜索引擎”，它能在遇到复杂路况时，快速从海量历史数据中“翻旧账”，找出类似场景的处理方式，然后结合当前情况做出更聪明的决策。

2025-08-08 09:45:00 839

原创从检索到决策：RAG 在自动驾驶的工程化通关秘籍

在自然语言处理领域，RAG（Retrieval-Augmented Generation）常被理解为“检索 + 生成”的组合架构：先从外部知识库中检索相关信息，再将其作为上下文输入给生成模型，用于回答问题或生成文本。随着 RAG 技术在自动驾驶领域的落地，学术界和工业界涌现出多个具有代表性的框架。随着 RAG 在自动驾驶中的应用逐步深入，新的技术瓶颈也开始浮现。RAG 在自动驾驶中的应用，不仅是技术创新，更需要严谨的评估体系来验证其实际价值。RAG 在自动驾驶中的落地，不再是单一模块的优化问题，而是一个。

2025-08-08 09:45:00 946

原创 0 成本撞 1000 次车？数字孪生让自动驾驶“开挂”练级

在自动驾驶的世界里，测试是“练级”的关键。但现实中，。不像游戏里可以无限重来，现实中的“撞车”不仅烧钱，还可能伤人。想象一下，如果你是自动驾驶算法的“教练”，你会怎么训练它识别雪天打滑、夜间行人突然横穿马路、复杂十字路口的非规则通行？这些场景在现实中很难复现，更不可能反复测试。于是，自动驾驶行业开始寻找一种“开挂练级”的方式——。

2025-08-07 09:45:00 855

原创 VIL 不是神话：数字孪生在 Orin-X 上的端到端部署 Checklist

tegrastats是 NVIDIA Jetson 平台（包括 Orin-X）自带的轻量级资源监控工具；是专业的性能剖析工具，用于分析 GPU、CPU、内存等资源使用情况。

2025-08-07 09:45:00 1257

原创自动驾驶的“私教课”曝光：原来叫 SFT！

随着自动驾驶技术的不断进步，相关的术语也越来越多，像“大模型”、“蒸馏”、“DAgger”、“SFT”……除了 SFT，你可能还听过一些类似的词，比如“大模型蒸馏”、“DAgger”。它们听起来都像是在“训练 AI”，但其实各有不同的作用。了解这些，不是为了“炫技”，而是为了更好地理解前沿技术，更高维度上有我们自己的理解。其实，SFT 的应用远不止“开车”本身，它已经渗透进自动驾驶的多个关键模块，帮助系统变得更聪明、更安全、更贴近人类驾驶习惯。通过 SFT，模型不只是“看到”，而是“理解”它看到的内容。

2025-08-06 09:45:00 762

原创从 RLHF 到 SFT：量产级自动驾驶模型精调的工程范式

在自动驾驶系统中，越来越多的模块开始采用类大模型架构（如 Transformer、BEVFormer、VLM 等），这使得模型训练流程也逐渐向通用 AI 的范式靠拢。SFT 位于整个流程的中间位置，起到承上启下的作用：它既保留了预训练模型的通用能力，又通过人类数据对齐了模型的行为方式。尤其是在 KPI 回灌与在线蒸馏机制的配合下，SFT 正在成为提升 NOA 系统性能的关键驱动。随着大模型架构逐步渗透到感知、决策、交互等环节，SFT 已成为多个关键模块性能提升的核心手段。SFT 的效果高度依赖于数据质量。

2025-08-06 09:45:00 739

原创自动驾驶为什么“看得懂”？揭秘背后的数据标注工厂

简单来说，数据标注就像是给自动驾驶汽车上的“眼睛”做教学。我们把大量的图片、视频、激光雷达数据等输入给它，然后告诉它：“这个是行人”、“这个是红绿灯”、“这条线是车道”。就像教小朋友认物一样，汽车也需要大量的“看图识物”训练。比如，一张街景图中，标注员会用框框圈出每一个行人、每一辆车，甚至每一个交通标志，并告诉系统它们分别是什么。这些信息会被用来训练自动驾驶的感知系统，让它在真实道路上也能“看懂”周围环境。

2025-08-05 09:45:00 1010

原创标注，自动驾驶的“燃料”：从像素到点云的技术演进

在自动驾驶系统中，数据标注不仅是感知模块的基础，更是整个闭环学习体系的起点。没有高质量的标注，就无法训练出可靠的模型，也就谈不上安全的自动驾驶。

2025-08-05 09:45:00 1040

原创老司机带新手：自动驾驶如何“边开边学”

自动驾驶不是一蹴而就的奇迹，而是无数次“试错+纠正”的积累。DAgger，就是让这条成长之路更聪明、更高效、更安全的关键一步。

2025-08-04 09:45:00 833

原创从模仿到自我纠正：深入理解DAgger在自动驾驶策略学习中的应用

随着端到端自动驾驶、世界模型（World Models）、人类反馈强化学习（RLHF）等技术的发展，DAgger 有望成为它们之间的“桥梁”

2025-08-04 09:45:00 753

原创卡尔曼滤波融合雷达与摄像头进行目标跟踪

本文教你如何通过卡尔曼滤波在ROS上进行实践

2025-08-01 09:45:00 725

原创自动驾驶的“第六感”：卡尔曼滤波是怎么帮车看清世界的

而这正是卡尔曼滤波等技术大显身手的地方——它能在这些“碎片信息”中找出规律，去噪声、补缺失，让车子“看得更清、想得更准”。现实世界的传感器（比如摄像头、雷达、GPS）都不是完美的，它们会受到光线、天气、遮挡、电磁干扰等各种因素的影响，导致测量结果“抖一抖”、“偏一偏”。在这个 AI 和自动驾驶飞速发展的时代，卡尔曼滤波依然在默默支撑着感知系统的“底层稳定性”，就像一位经验丰富的老工程师，始终站在最关键的位置上。摄像头可能看到前车的位置，雷达可能测到它的速度，但这些信息都有噪声，甚至会“跳来跳去”。

2025-08-01 09:45:00 868

原创 “自动驾驶的眼睛”：语义分割是怎么让车“看懂”世界的

语义分割是计算机视觉中的一种任务，它的目标是将图像中的每一个像素都分类到一个具体的语义类别中，比如“道路”、“行人”、“车辆”、“建筑物”、“天空”等

2025-07-31 09:45:00 722

原创语义分割：从像素级感知到决策闭环

未来的语义分割将不再是一个孤立的视觉任务，而是深度嵌入到自动驾驶系统的每一个环节中，从感知、建图，到预测、决策，甚至人机交互。它将成为理解世界的基础语言，也是构建智能驾驶系统的关键拼图

2025-07-31 09:45:00 1778

原创自适应巡航-ACC

ACC 不是“自动驾驶”，但它绝对是“开车不累”的第一步。了解它、用好它，你会发现堵车和跑高速都不再那么烦人了！

2025-07-30 10:15:00 502

原创数字底盘-“真升级”还是“伪创新”

数字底盘是“软硬一体”的智能平台，不再只是“车的骨架”，更是“车的神经系统”。

2025-07-30 09:45:00 729

原创安全防护-LDWS车道偏离预警系统

LDWS 虽然是一个“老功能”，但它并没有被淘汰，反而在不断进化。从提醒到理解，从单一感知到多模态融合，它正在变得越来越聪明，也越来越值得我们信赖。

2025-07-29 10:38:03 749

原创 “蒸馏”大模型-自动驾驶背后的“老师带徒弟”术

大模型蒸馏，是让聪明的自动驾驶系统真正走上街头的‘压缩包’技术。

2025-07-29 10:02:59 1028

原创 “车位到车位”自动驾驶真相

“车位到车位”是当前自动驾驶技术的高光时刻，但它不是终点，而是通往真正自动驾驶的起点。

2025-07-28 14:22:32 897

原创 “无图”自动驾驶真相揭秘：高精地图到底有没有被淘汰

在“无图自动驾驶”成为主流口号的今天，高精地图似乎正逐渐被边缘化。但真相远比“有图 vs 无图”二元对立更复杂。我们需要从技术、成本、场景、演进趋势等多个维度，重新审视高精地图的价值与未来。

2025-07-28 12:53:27 1203

原创 VLA：自动驾驶的“新大脑”？

VLA 是自动驾驶系统的一次范式转变，它让车不只是“能动”，而是“能懂”。但要真正实现“像人一样开车”，我们还需要更多的数据、更强的算力、更成熟的工程能力——以及时间。

2025-07-25 13:06:46 1579

原创世界模型到底是啥？别再被发布会的“AI 幻术”骗了！

世界模型是通往更强 AI 驾驶员的关键工具，但它不是“终局”，更不是“捷径”。

2025-07-25 10:21:29 1290

原创 ROS-Base：自动驾驶的“传统功夫”

自动驾驶为何千篇一律？ROS架构仍是量产主流目前多数车企的自动驾驶系统采用ROS-base架构，将功能拆分为感知、预测、规划和控制等模块，通过ROS（机器人操作系统）协调运行。该架构工程成熟、易于调试，但存在误差累积、泛化能力弱等局限。尽管大模型和端到端方案兴起，ROS仍因高可靠性成为主流选择。高精地图是关键依赖，提供精准定位和道路信息，但也带来高成本、更新慢等问题，促使车企探索“轻地图”方案。国内厂商如华为、小鹏通过优化模块和引入BEV感知提升性能，但核心仍是ROS架构。未来，端到端自动驾驶可能取代

2025-07-24 13:48:34 785

原创端到端-未来还是现实

端到端自动驾驶：特斯拉的独门秘籍自动驾驶技术正经历从模块化到端到端的革命性转变。传统架构如交响乐团分工明确但易出错，而端到端系统则像独奏家，直接通过AI模型将图像转化为驾驶指令。特斯拉凭借三大优势独占鳌头：海量数据、强大模型和快速迭代的闭环系统。FSD v12成为目前唯一量产落地的端到端方案，完全摆脱对高精地图的依赖。相比之下，国内车企虽在数据采集和模型训练上发力，但仍受限于法规、安全验证和系统闭环等瓶颈，停留在"类端到端"阶段。这场技术变革昭示着未来已来，但全面普及尚需时日。

2025-07-24 13:12:55 845

原创安全防护-FCW

FCW（前方碰撞预警）系统通过多传感器融合技术实时监测前方150米内的障碍物，当检测到碰撞风险（相对速度≥30km/h且碰撞时间＜2.7秒）时，通过三级警报提醒驾驶员，可降低27%事故率。系统面临误报（如弯道误判静态物体）和漏报的平衡难题，工程师通过AI算法、动态阈值调整等手段持续优化。随着技术发展，FCW正与AEB、V2X等技术深度融合，从单一预警功能进化为智能安全决策模块，实现从被动安全到主动避险的跨越。

2025-07-23 19:22:32 868

原创纯视觉VS激光雷达

纯视觉VS激光雷达，一场没有“标准答案”的持久战。

2025-07-23 18:57:26 798

原创激光雷达-自动驾驶的“三维感知中枢“

激光雷达（LiDAR）是自动驾驶的核心传感器，通过激光束扫描生成高精度三维点云，弥补摄像头和毫米波雷达的局限性。安装位置分车顶（360°全视角）和前保险杠（低成本方案），适用于不同自动驾驶级别。其核心参数包括测距范围（50-300米）、点云密度（100万-3000万点/秒）和视场角，决定了感知能力。目前主流技术包含机械式（高精度）、半固态（量产主流）和全固态（未来方向）。激光雷达在夜间、雨雾天气等复杂场景中优势显著，能精准识别障碍物轮廓。国内市场已出现10万级搭载车型，2025年或成L3级自动驾驶量产元年，

2025-07-22 23:12:56 1133

自动驾驶+高精地图+OpenStreetMap+autoware

空空如也