- 博客(47)
- 收藏
- 关注
原创 把 7B 模型塞进车规级芯片:LoRA 在自动驾驶中的极限调参指南
虽然 LoRA 在训练阶段表现出色,但真正的挑战在于如何将其部署到资源受限的车载环境中,尤其是车规级芯片(如 NVIDIA Orin-X、华为 MDC、地平线征程系列)上。LoRA 已经在自动驾驶中展现出强大的微调能力,但它的潜力远不止于此。小鹏的 XNGP 系统强调“全国都能开”,通过 LoRA 插件实现 BEV 感知模型的城市级别微调,并结合任务调度系统进行插件管理。小米 SU7 在语音座舱中部署了 7B 规模的语言模型,通过 LoRA 插件实现个性化语义理解与导航推荐,适配不同用户的语音习惯。
2025-08-13 12:55:36
622
原创 从华为到小米,它们都在用这项“小模型外挂”把城市 NOA 塞进你的老车里
在自动驾驶的世界里,车企们正在悄悄使用一种叫做的技术,把原本只能在高端车型上运行的大模型,塞进你家的“老车”里。想象一下:你有一辆三年前买的车,芯片算力不高,但突然它能在城市里自动变道、识别红绿灯、甚至听懂你说“去最近的咖啡店”并自动导航过去。这不是换了硬件,而是靠一种“外挂式”的 AI 微调技术 —— LoRA。LoRA 的本质是一种轻量级的 AI 模型微调方法。传统的大模型训练需要动用大量算力和数据,而 LoRA 只需要“插入”少量参数,就能让原始模型学会新技能。
2025-08-13 12:20:37
528
原创 Self-Attention→BEVFormer:一张图看懂注意力在自动驾驶的十年进化史
最早的注意力机制由 Bahdanau 等人在机器翻译任务中提出,用于解决 RNN 编码器在长序列中信息压缩的问题。注意力机制并非始于 Transformer,它的历史可以追溯到序列建模的早期阶段,尤其是在自然语言处理(NLP)任务中。在自动驾驶系统中,注意力机制已经深入多个关键模块,从感知到决策,从多模态融合到轨迹预测。Transformer 并不只用一个注意力头,而是使用多个并行的注意力头,每个头可以学习不同的语义关系。在端到端自动驾驶架构中,注意力机制帮助模型从感知到控制的全过程中提取关键语义。
2025-08-12 12:16:54
464
原创 从刷短视频到开无人车:注意力机制如何悄悄决定你的每一次点击与刹车?
在自动驾驶中,车辆摄像头会捕捉大量画面,但并不是每一帧、每一个像素都同样重要。优先识别行人、红绿灯、其他车辆;忽略不相关的背景,比如广告牌或天空。这就像人类开车时自动忽略路边的风景,而专注于前方的路况。
2025-08-12 11:04:39
484
原创 TopLiDM架构解析:DriveVLM如何融合VLM与E2E自动驾驶
自动驾驶技术近年来在感知、规划、控制等模块上取得了显著进展,尤其是端到端(End-to-End, E2E)方法的兴起,使得从传感器输入到轨迹输出的流程更加紧凑。尽管 TopLiDM 展现出强大的语义推理与规划能力,但在实际部署与持续优化过程中,仍面临一系列技术挑战。,它们通过引入大模型的语言理解能力,使自动驾驶系统具备“解释能力”和“推理能力”,不仅能输出轨迹,还能回答“为什么这么走”。的“思维链”过程,融合视觉语言模型(VLM)与传统 E2E 模型,实现更强的语义推理与决策能力。
2025-08-11 12:53:32
628
原创 自动驾驶也能“思考”?揭秘TopLiDM大模型
你有没有想过,自动驾驶汽车是怎么“决定”下一步该怎么走的?过去,它们主要依靠传感器收集数据,然后通过算法直接计算出一条行驶轨迹。但这就像是“闭着眼睛走路”,只看眼前,不理解整个场景。而TopLiDM(Top-Level Driving Model)是理想汽车提出的一种新型自动驾驶思维方式。它的特别之处在于:不仅“看得见”,还“想得通”。我们可以把它类比成人类驾驶员的思考过程:👀先观察:这是城市路口,有红绿灯、行人、交警在挥手。🧠再分析:交警的手势是让我们停下,行人正在过马路。🚗最后决定。
2025-08-11 12:53:27
679
原创 AI 也会“翻旧账”?RAG 让自动驾驶秒变老司机
RAG 就像是给自动驾驶装了一个“记忆搜索引擎”,它能在遇到复杂路况时,快速从海量历史数据中“翻旧账”,找出类似场景的处理方式,然后结合当前情况做出更聪明的决策。
2025-08-08 09:45:00
839
原创 从检索到决策:RAG 在自动驾驶的工程化通关秘籍
在自然语言处理领域,RAG(Retrieval-Augmented Generation)常被理解为“检索 + 生成”的组合架构:先从外部知识库中检索相关信息,再将其作为上下文输入给生成模型,用于回答问题或生成文本。随着 RAG 技术在自动驾驶领域的落地,学术界和工业界涌现出多个具有代表性的框架。随着 RAG 在自动驾驶中的应用逐步深入,新的技术瓶颈也开始浮现。RAG 在自动驾驶中的应用,不仅是技术创新,更需要严谨的评估体系来验证其实际价值。RAG 在自动驾驶中的落地,不再是单一模块的优化问题,而是一个。
2025-08-08 09:45:00
946
原创 0 成本撞 1000 次车?数字孪生让自动驾驶“开挂”练级
在自动驾驶的世界里,测试是“练级”的关键。但现实中,。不像游戏里可以无限重来,现实中的“撞车”不仅烧钱,还可能伤人。想象一下,如果你是自动驾驶算法的“教练”,你会怎么训练它识别雪天打滑、夜间行人突然横穿马路、复杂十字路口的非规则通行?这些场景在现实中很难复现,更不可能反复测试。于是,自动驾驶行业开始寻找一种“开挂练级”的方式——。
2025-08-07 09:45:00
855
原创 VIL 不是神话:数字孪生在 Orin-X 上的端到端部署 Checklist
tegrastats是 NVIDIA Jetson 平台(包括 Orin-X)自带的轻量级资源监控工具;是专业的性能剖析工具,用于分析 GPU、CPU、内存等资源使用情况。
2025-08-07 09:45:00
1257
原创 自动驾驶的“私教课”曝光:原来叫 SFT!
随着自动驾驶技术的不断进步,相关的术语也越来越多,像“大模型”、“蒸馏”、“DAgger”、“SFT”……除了 SFT,你可能还听过一些类似的词,比如“大模型蒸馏”、“DAgger”。它们听起来都像是在“训练 AI”,但其实各有不同的作用。了解这些,不是为了“炫技”,而是为了更好地理解前沿技术,更高维度上有我们自己的理解。其实,SFT 的应用远不止“开车”本身,它已经渗透进自动驾驶的多个关键模块,帮助系统变得更聪明、更安全、更贴近人类驾驶习惯。通过 SFT,模型不只是“看到”,而是“理解”它看到的内容。
2025-08-06 09:45:00
762
原创 从 RLHF 到 SFT:量产级自动驾驶模型精调的工程范式
在自动驾驶系统中,越来越多的模块开始采用类大模型架构(如 Transformer、BEVFormer、VLM 等),这使得模型训练流程也逐渐向通用 AI 的范式靠拢。SFT 位于整个流程的中间位置,起到承上启下的作用:它既保留了预训练模型的通用能力,又通过人类数据对齐了模型的行为方式。尤其是在 KPI 回灌与在线蒸馏机制的配合下,SFT 正在成为提升 NOA 系统性能的关键驱动。随着大模型架构逐步渗透到感知、决策、交互等环节,SFT 已成为多个关键模块性能提升的核心手段。SFT 的效果高度依赖于数据质量。
2025-08-06 09:45:00
739
原创 自动驾驶为什么“看得懂”?揭秘背后的数据标注工厂
简单来说,数据标注就像是给自动驾驶汽车上的“眼睛”做教学。我们把大量的图片、视频、激光雷达数据等输入给它,然后告诉它:“这个是行人”、“这个是红绿灯”、“这条线是车道”。就像教小朋友认物一样,汽车也需要大量的“看图识物”训练。比如,一张街景图中,标注员会用框框圈出每一个行人、每一辆车,甚至每一个交通标志,并告诉系统它们分别是什么。这些信息会被用来训练自动驾驶的感知系统,让它在真实道路上也能“看懂”周围环境。
2025-08-05 09:45:00
1010
原创 标注,自动驾驶的“燃料”:从像素到点云的技术演进
在自动驾驶系统中,数据标注不仅是感知模块的基础,更是整个闭环学习体系的起点。没有高质量的标注,就无法训练出可靠的模型,也就谈不上安全的自动驾驶。
2025-08-05 09:45:00
1040
原创 老司机带新手:自动驾驶如何“边开边学”
自动驾驶不是一蹴而就的奇迹,而是无数次“试错+纠正”的积累。DAgger,就是让这条成长之路更聪明、更高效、更安全的关键一步。
2025-08-04 09:45:00
833
原创 从模仿到自我纠正:深入理解DAgger在自动驾驶策略学习中的应用
随着端到端自动驾驶、世界模型(World Models)、人类反馈强化学习(RLHF)等技术的发展,DAgger 有望成为它们之间的“桥梁”
2025-08-04 09:45:00
753
原创 自动驾驶的“第六感”:卡尔曼滤波是怎么帮车看清世界的
而这正是卡尔曼滤波等技术大显身手的地方——它能在这些“碎片信息”中找出规律,去噪声、补缺失,让车子“看得更清、想得更准”。现实世界的传感器(比如摄像头、雷达、GPS)都不是完美的,它们会受到光线、天气、遮挡、电磁干扰等各种因素的影响,导致测量结果“抖一抖”、“偏一偏”。在这个 AI 和自动驾驶飞速发展的时代,卡尔曼滤波依然在默默支撑着感知系统的“底层稳定性”,就像一位经验丰富的老工程师,始终站在最关键的位置上。摄像头可能看到前车的位置,雷达可能测到它的速度,但这些信息都有噪声,甚至会“跳来跳去”。
2025-08-01 09:45:00
868
原创 “自动驾驶的眼睛”:语义分割是怎么让车“看懂”世界的
语义分割是计算机视觉中的一种任务,它的目标是将图像中的每一个像素都分类到一个具体的语义类别中,比如“道路”、“行人”、“车辆”、“建筑物”、“天空”等
2025-07-31 09:45:00
722
原创 语义分割:从像素级感知到决策闭环
未来的语义分割将不再是一个孤立的视觉任务,而是深度嵌入到自动驾驶系统的每一个环节中,从感知、建图,到预测、决策,甚至人机交互。它将成为理解世界的基础语言,也是构建智能驾驶系统的关键拼图
2025-07-31 09:45:00
1778
原创 安全防护-LDWS车道偏离预警系统
LDWS 虽然是一个“老功能”,但它并没有被淘汰,反而在不断进化。从提醒到理解,从单一感知到多模态融合,它正在变得越来越聪明,也越来越值得我们信赖。
2025-07-29 10:38:03
749
原创 “无图”自动驾驶真相揭秘:高精地图到底有没有被淘汰
在“无图自动驾驶”成为主流口号的今天,高精地图似乎正逐渐被边缘化。但真相远比“有图 vs 无图”二元对立更复杂。我们需要从技术、成本、场景、演进趋势等多个维度,重新审视高精地图的价值与未来。
2025-07-28 12:53:27
1203
原创 VLA:自动驾驶的“新大脑”?
VLA 是自动驾驶系统的一次范式转变,它让车不只是“能动”,而是“能懂”。但要真正实现“像人一样开车”,我们还需要更多的数据、更强的算力、更成熟的工程能力——以及时间。
2025-07-25 13:06:46
1579
原创 ROS-Base:自动驾驶的“传统功夫”
自动驾驶为何千篇一律?ROS架构仍是量产主流 目前多数车企的自动驾驶系统采用ROS-base架构,将功能拆分为感知、预测、规划和控制等模块,通过ROS(机器人操作系统)协调运行。该架构工程成熟、易于调试,但存在误差累积、泛化能力弱等局限。尽管大模型和端到端方案兴起,ROS仍因高可靠性成为主流选择。 高精地图是关键依赖,提供精准定位和道路信息,但也带来高成本、更新慢等问题,促使车企探索“轻地图”方案。国内厂商如华为、小鹏通过优化模块和引入BEV感知提升性能,但核心仍是ROS架构。 未来,端到端自动驾驶可能取代
2025-07-24 13:48:34
785
原创 端到端-未来还是现实
端到端自动驾驶:特斯拉的独门秘籍 自动驾驶技术正经历从模块化到端到端的革命性转变。传统架构如交响乐团分工明确但易出错,而端到端系统则像独奏家,直接通过AI模型将图像转化为驾驶指令。特斯拉凭借三大优势独占鳌头:海量数据、强大模型和快速迭代的闭环系统。FSD v12成为目前唯一量产落地的端到端方案,完全摆脱对高精地图的依赖。相比之下,国内车企虽在数据采集和模型训练上发力,但仍受限于法规、安全验证和系统闭环等瓶颈,停留在"类端到端"阶段。这场技术变革昭示着未来已来,但全面普及尚需时日。
2025-07-24 13:12:55
845
原创 安全防护-FCW
FCW(前方碰撞预警)系统通过多传感器融合技术实时监测前方150米内的障碍物,当检测到碰撞风险(相对速度≥30km/h且碰撞时间<2.7秒)时,通过三级警报提醒驾驶员,可降低27%事故率。系统面临误报(如弯道误判静态物体)和漏报的平衡难题,工程师通过AI算法、动态阈值调整等手段持续优化。随着技术发展,FCW正与AEB、V2X等技术深度融合,从单一预警功能进化为智能安全决策模块,实现从被动安全到主动避险的跨越。
2025-07-23 19:22:32
868
原创 激光雷达-自动驾驶的“三维感知中枢“
激光雷达(LiDAR)是自动驾驶的核心传感器,通过激光束扫描生成高精度三维点云,弥补摄像头和毫米波雷达的局限性。安装位置分车顶(360°全视角)和前保险杠(低成本方案),适用于不同自动驾驶级别。其核心参数包括测距范围(50-300米)、点云密度(100万-3000万点/秒)和视场角,决定了感知能力。目前主流技术包含机械式(高精度)、半固态(量产主流)和全固态(未来方向)。激光雷达在夜间、雨雾天气等复杂场景中优势显著,能精准识别障碍物轮廓。国内市场已出现10万级搭载车型,2025年或成L3级自动驾驶量产元年,
2025-07-22 23:12:56
1133
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人