- 博客(241)
- 资源 (11)
- 收藏
- 关注

原创 目标检测技术总结
分类代表算法优势劣势Two-Stage高精度,适合复杂目标检测任务推理慢,结构复杂One-StageYOLO 系列, SSD, RetinaNet, FCOS推理速度快,部署方便对小目标和复杂场景略逊色混合/新范式精度高、无 Anchor、结构创新训练收敛慢、对硬件要求高Anchor(先验框):是在人为设计的一组预定义大小/长宽比的矩形框,提前分布在特征图的每个位置,用来预测目标框的位置和大小。Anchor-based 检测器用这些框作为候选,与真实框进行匹配和回归。
2025-07-29 14:18:13
719

原创 深度学习框架比较分析及各种版本mnist识别
现在市场上流行的深度学习框架很多,常用的有tensorflow, keras,MXNet, Torch, Caffe, Theano等几种,通过对比分析可以得到:框架 开发语言 优劣及难易程度 tensorflow c++/cuda/python 资料全,灵活性好,适应性广,但前期上手难 keras c++/cuda/python ...
2019-09-06 09:37:31
810

原创 深度学习中常见的打标签工具和数据集集合
集大家之所长汇集于此,希望对有需要的你能有所帮助。一、打标签工具(1)labelimg/labelme这两款工具简便易行,前者主要用于对目标进行大致的标定,用于常见的框选标定,后者主要用于较为细致的轮廓标定,多用于mask rcnn等。安装也是很方便的,直接在终端下用pip install labelimg即可(至于labelme,需要先安装pyqt,所以先pip insta...
2018-11-05 11:12:34
52193
12

原创 Windows下用c++来调用tensorflow训练好的模型
在尝试用c++来调用tensorflow训练好的模型时确实花了一些时间,现在总结一下,以供后续的学习: 首先我想说明的一下是常见的tensorflow训练好的模型保存方式有两种:ckpt格式和pb格式,其中前者主要用于暂存我们训练的临时数据,避免发生意外导致训练终止,前面的努力全部白费掉了。而后者常用于将模型固化,提供离线预测,用户只要提供一个输入,通过模型就可以得到一个预测结...
2018-07-14 11:13:51
37948
123
原创 webhook使用
Webhook 本质是服务端事件的回调通知。它让系统之间实现实时联动,而不是定时轮询。用途广泛:支付回调、自动化部署、消息通知、数据同步等。要不要我给你一个完整的案例(比如 GitHub push → 自动部署代码)来展示 webhook 的实际用法?
2025-09-05 17:03:44
58
原创 Thor芯片部署
英伟达Jetson Thor芯片性能分析与应用现状 摘要:英伟达最新发布的Jetson Thor芯片基于Blackwell架构,官方宣称AI算力达2070TFLOPS(FP4),较前代Orin提升7.5倍,配备14核Arm CPU和128GB内存。然而实际量产版算力缩水至700TOPS,且因4nm制程良率问题多次延期至2025-2026年交付。该芯片支持FP4/FP8量化、Transformer引擎等先进特性,适用于自动驾驶、机器人等边缘AI场景,但受供应链限制,国内厂商倾向自研方案。开发者可通过JetPa
2025-08-28 16:12:04
52
原创 手把手教你如何写一个自己的mcp 服务
它封装了 MCP 协议的细节,使开发者可以通过 Python 装饰器,专注于工具(Tools)、资源(Resources)及提示(Prompts)的业务逻辑设计,而无需处理底层协议、内容类型与错误处理等复杂工作。- 新建项目文件夹,执行`uv init --package`初始化为Python包,并通过`uv add mcp-cli`引入MCP SDK。- 推荐使用`UV`管理Python环境,通过`uv python list`查看可用版本并安装所需Python解释器。"即可,整体配置显示如下,
2025-08-12 16:45:31
62
原创 python之注册机制总结
注册方式跨包发现插件卸载动态添加适合场景✅❌❌第三方插件、打包发布自定义注册器(dict)❌✅✅简单插件、本地扩展动态导入 + 装饰器✅✅✅本地插件系统pluggy✅✅✅大型可扩展架构ABC + 反射✅✅✅接口规范化元类注册✅✅✅框架内部插件依赖注入容器✅✅✅企业级服务架构。
2025-08-08 22:50:01
135
原创 深度学习loss总结(二)
目标推荐 Loss 类型二分类 / 多分类框精度优化回归稳定性中心点预测方向预测Loss 名称优点适用场景简单稳定普通语义分割BCE二分类场景通用医学图像、背景分割Dice Loss对类别不平衡鲁棒小目标、医学图像IoU Loss对目标形状更敏感mIoU 优化任务Focal Loss聚焦难样本,类别不平衡小目标、复杂背景分割可调节 FP/FN 权重极小目标、前景稀疏直接优化 IoU精细语义分割任务优化轮廓器官边界、肿瘤轮廓任务类别。
2025-08-02 10:06:07
756
原创 YOLO目标检测总结
方面优势结构清晰模块化 Backbone / Head / Loss / Aug易扩展YAML 配置 + 类似 Detectron2 的 Trainer支持多任务部署支持好一键导出 ONNX、TRT、NCNN文档齐全。
2025-07-28 22:53:40
1124
原创 Fastbev模型学习笔记
Fast-BEV 是在规则 BEV 网格上查表采样,生成稠密 BEV 表征;所以,Fast-BEV 的速度来自“结构化和查表”,但代价是强依赖标定精度。Fast-BEV 是为“高效生成 BEV 表征”而生的轻量感知框架,牺牲一部分极限精度换取 10x 以上的推理加速,非常适合车规中低功耗场景;总结一下,Fast-BEV 把图像特征到 BEV 空间的投影“查表化”,用规则化稀疏索引代替计算投影矩阵,并用简单聚合替代复杂 Transformer,从根本上解决了速度慢、算力高的问题。
2025-07-25 10:57:31
71
原创 LLM性能评测
graph LR A[单元测试] --> B[组件测试] B --> C[端到端评估] C --> D[线上A/B测试]生产环境中建议结合业务需求设计加权评分卡(如 准确性×0.6 + 延迟×0.2 + 成本×0.2)。评估垂直领域LLM和RAG智能体的效果需采用不同的指标体系,二者核心差异在于。:模型是否内化了领域知识,并具备专业推理能力。答案与检索内容的事实对齐度(人工/LLM评分)问题所需知识是否在检索结果中(二值判断):系统能否精准检索并有效利用外部知识。端到端响应时间(检索+生成)
2025-07-25 10:21:16
71
原创 基于Linux系统docker封装exe
方案适合情况操作复杂度依赖安装mingw-w64工具链编译 Windows.exe,简单 C/C++ 项目⭐ 最简单apt 安装权限使用宿主 Docker(挂载 sock)构建复杂环境,或需多次复用中等容器可访问 Docker socketDinD 特权容器需要完全隔离 Docker 环境(CI 用)高(不推荐)需要,多数云服务禁用结合我目前的现状:✅基于 PyQt 的 Python 项目,需要打包为.exe可执行文件,准备部署到 Windows 上运行,
2025-06-03 16:22:39
1228
原创 VLA 算法现状概述
模型是一类将视觉信息和语言指令结合,用于机器人动作控制的端到端模型。其核心思想是借助大规模预训练的视觉-语言模型(VLM)与机器人示范数据,使机器人能够从一段图像序列和自然语言指令直接输出控制动作序列。这类模型通常包括:①(提取图像特征),②(提取指令语义),③(如通过 FiLM 将语言嵌入视觉特征),以及④(将融合后的特征解码为动作)。例如,OpenVLA 采用 LLaMA2 为语言骨干,结合 DINOv2、SigLIP 双通道视觉编码器,将图像和指令拼接成输入序列,输出下一个动作标记;
2025-05-26 22:33:04
240
原创 机器人控制算法学习笔记
通过试错与奖励机制自主学习控制策略,例如百度提出的自进化步态生成器结合强化学习的四足机器人控制算法,能适应复杂地形和高难度任务。通过控制关节角度或末端执行器的位置实现目标轨迹跟踪,常用于工业机器人。在每个时间步求解优化问题以生成最优控制信号,常用于足式机器人(如四足机器人)的步态规划,但对计算资源要求较高。未来趋势上,智能控制算法(如强化学习)与经典控制方法的融合将成为主流,推动机器人在非结构化环境中的自主性和适应性。调节机器人末端的质量-阻尼-弹簧特性,实现与环境的安全交互,适用于协作机器人。
2025-05-22 09:34:44
1419
原创 多模态学习笔记
通过结合几何投影、深度学习特征对齐和中间表示的统一建模,可以高效实现图像与3D传感器数据的跨模态对齐,为自动驾驶、机器人感知等场景提供可靠的多模态融合基础。对于图像与激光雷达(LiDAR)点云、毫米波雷达等3D传感器数据的跨模态对齐,需针对数据特性设计特殊方法。通过交叉注意力机制(Cross-Attention),让两种模态的特征在细粒度上动态交互,捕捉局部对齐关系(如物体-单词对应)。通过构建正负样本对,在共享嵌入空间中拉近匹配的图像-文本对(正样本),推远不匹配的对(负样本),实现全局特征对齐。
2025-05-21 16:14:51
256
原创 视觉大模型学习总结
视觉大模型(VLMs)在视觉与语言结合的多模态任务中展现出强大能力。Idefics系列(HuggingFace)基于LLaMA/Mistral架构,支持多图输入和开放式问答,适合图文推理;Qwen-VL系列(阿里巴巴)优化中文能力,擅长中文图文理解和OCR任务;LLaVA系列(UC Berkeley)轻量且教学友好,适合视觉问答和聊天机器人;Phi-3 Vision(Microsoft)以极小模型实现高效图文理解,适合边缘设备等等。
2025-05-21 14:41:05
1080
原创 nuscenes_devkit工具
nuScenes devkit 是由新加坡国立大学和 Motional 团队联合发布的自动驾驶数据集 nuScenes 的官方开发工具包。
2025-05-10 16:39:13
214
原创 mujoco仿真器学习笔记
Mujoco表示Multi-Joint dynamics with contact,它是一个通用的物理引擎, 旨在促进机器人、生物力学、图形和动画、机器学习和其他需要快速准确地模拟与其环境相互作用的铰接结构的领域。 它最初由 Roboti LLC 开发,于 2021 年 2022 月被 DeepMind 收购并免费提供,并于2022 年 5 月开源。 MuJoCo代码库可在GitHub上的deepmind/mujoco存储库中找到。
2025-05-06 17:22:38
1033
原创 机器人强化学习入门学习笔记(二)
简单易实现(比 TRPO 简洁)稳定性强可用于高维动作空间(如机械臂、二足机器人)官方 MuJoCo 强化学习基准最常用的算法之一超强的样本效率(off-policy)探索能力强(鼓励策略输出分布)适合高维、复杂任务,MuJoCo 控制任务中表现优异无需精细调参,鲁棒性强比 DDPG 更稳定可靠动作输出确定性高,适合精准控制任务样本效率较好(off-policy)适用于机械臂、小车控制等任务。
2025-05-05 19:30:25
1477
原创 机器人强化学习入门学习笔记
如果你追求高精度动力学仿真、用于强化学习或机器人研究,MuJoCo 是一个非常优秀的选择。如果需要快速实验、使用真实机器人模型,PyBullet 或 Gazebo可能更合适;如果你追求大规模并行训练,Isaac Gym 或 BraX会更高效。legged gym底层是编辑isaacgym,基于gpu训练可以多环境并行训练,收敛到一个稳定行走的策略快。本视频MuJoCo基于cpu训练很慢。
2025-05-05 16:01:16
974
原创 华为昇腾CANN架构
当完成整个编译器和编译语言以及算子加速库等工作,也就是你的护城河基本构建完成,其中配件越丰富,使用的人越多也就是你的护城河越深,别人越难替代。对于英伟达的护城河CUDA架构,大家应该不会陌生。同时晟腾架构还提供了图引擎和runtime等工具。
2025-05-05 10:06:34
658
原创 sim2real学习笔记
Sim2Real(Simulation to Reality,仿真到现实)是一种让在的技术。它主要用于机器人、自动驾驶、具身智能等领域。因为现实世界的数据采集成本高、风险大、效率低,所以很多训练工作在仿真环境中进行。但仿真环境和现实之间存在“”,比如传感器噪声、物理参数、光照条件等不同,这会导致模型迁移到现实时性能下降。
2025-04-29 16:59:04
1369
原创 具身智能之强化学习
在具身智能(Embodied AI)中,强化学习(Reinforcement Learning,RL)是一种非常核心的学习方法。它让智能体(agent)通过与环境交互,不断试错,学习完成任务的策略,比如走路、拿东西、开门、搬运等。
2025-04-29 16:52:41
810
原创 非结构化数据解析
从目前来看,基于 unstructured 的方案是最多的,原因是 unstructured 作为开源非结构化解析库,对不同的格式都能提供一个还不错的支持。但是从上面的测试来看,html_text 在 html 的分片支持上,看起来可以提供一个更符合人类可视化效果的切分。针对日常生活中常见的文本中出现图片,表格,公式等非结构性数据,在构建rag系统时对其有效信息提取与最后结果息息相关。当完成对非结构性数据的信息提取后,结合rag,实现对基座llm对垂直领域信息提取能力的极大增强。html_text 解析。
2025-04-27 15:56:22
186
原创 奥比中光tof相机开发学习笔记
针对奥比中光 tof相机,官方提供的资料如下Orbbec SDK Python Wrapper基于Orbbec SDK进行设计封装,主要实现接收,设备指令控制。
2025-04-16 15:13:57
1130
原创 具身智能学习笔记
具身智能(Embodied Intelligence)指的是智能体在物理世界中通过身体与环境交互来学习和决策的一种智能形式。这种智能融合了感知、动作和决策,广泛应用于机器人、自主驾驶、虚拟仿真等领域。下面是具身智能的技术栈总结,从底层到上层逐层展开
2025-04-13 09:31:56
119
原创 工业相机使用笔记
通过在感光芯片上添加彩色滤镜或采用分光棱镜等方式,将光线分成不同的颜色分量,如RGB三原色,然后分别进行感光和处理,最终输出彩色图像。适用于对颜色信息有要求的场合,如在印刷品检测中,检测颜色是否准确、有无偏色;在食品检测中,根据颜色判断食品的成熟度和品质。:当光线照射到感光芯片时,光子信号转换成电子信号,通过统计电子数目形成反映光线强弱的黑白图像,光的颜色信息未被保留。在对图像颜色要求不高,注重细节和灰度信息的场合应用广泛,如金属表面裂纹检测、零件尺寸测量等,相同分辨率下,其精度高于彩色相机。
2025-04-11 15:34:16
625
原创 llm智能体总结分析
大模型Agent是一种构建于大型语言模型(LLM)之上的智能体,它具备环境感知能力、自主理解、决策制定及执行行动的能力。Agent是能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。在技术架构上,Agent从面向过程的架构转变为面向目标的架构,旨在通过感知、思考与行动的紧密结合,完成复杂任务。这是一款可轻松实验和原型化 LangChain流水线的AI项目—LangFlow,功能上和目前。
2025-04-08 15:44:24
83
matrixcookbook.pdf
2020-08-23
yolo系列预训练权重.txt
2021-03-03
rufus_files.7z
2020-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人