骚火棍-CSDN博客

原创从DDPM对比学习Diffusion Policy：生成模型到策略学习的演进

本文《从DDPM对比学习Diffusion Policy：生成模型到策略学习的演进》系统地对比分析了DDPM（Denoising Diffusion Probabilistic Models）与Diffusion Policy两种基于扩散模型的技术，并深入探讨了Diffusion Policy在机器人抓取任务中的实际应用。

2025-08-10 22:17:22 664

原创深入理解强化学习：近端策略优化（PPO）算法详解

摘要：近端策略优化（PPO）算法详解 PPO算法是强化学习领域的重要突破，解决了传统策略梯度方法在更新步长敏感性和数据利用率上的局限。基于马尔可夫决策过程框架，PPO通过引入裁剪机制和优势函数估计，在保持训练稳定性的同时简化了计算。核心公式L^CLIP(θ)采用概率比率裁剪技术，将策略更新幅度限制在[1-ε,1+ε]范围内，有效平衡了探索与利用。PPO结合广义优势估计(GAE)和熵正则化项，既保证了性能又提高了采样效率，成为解决复杂决策任务的优选算法。其简洁实现和优异表现使其在学术界和工业界广受青睐。

2025-08-09 15:28:09 807

原创机器人仿真与强化学习：从虚拟到现实的智能之路

机器人仿真与强化学习：虚拟环境训练智能体的关键技术摘要：机器人仿真技术为强化学习提供了安全高效的训练平台，通过精确模拟物理环境和交互过程，使智能体能在虚拟世界中积累经验。文章系统阐述了观测空间与奖励函数的设计原则，对比分析了PPO、SAC等主流强化学习算法的适用场景，并以机械臂抓取任务为例展示了完整实现流程。仿真环境的数据生成优势在于无限次重置、安全模拟危险场景和低成本测试极端条件。通过域随机化技术，虚拟环境中训练的策略可迁移至现实世界，形成"仿真训练-现实应用"的闭环。该技术已在机器

2025-08-05 20:46:01 707

原创 LangGraph快速搭建新一代信息检索增强工具DeepResearch

基于LangGraph的深度研究智能体开发本摘要介绍了一个基于LangGraph框架构建的自主研究智能体系统，能够自动完成从问题理解到报告生成的完整研究流程。项目采用三阶段流水线架构：规划阶段：通过LLM生成5-7个相关搜索查询搜索阶段：使用TavilyAPI执行网络搜索并生成摘要写作阶段：综合搜索结果输出结构化研究报告技术特点：全流程JSON模式结构化输出支持中文长文本生成（2000+字符）内置验证机制处理异常情况可视化工作流跟踪核心组件包括规划器、搜索代理和写作器三个模块，通过Lan

2025-08-01 00:57:33 676

原创 ORB-SLAM3入门指南：从理论到实践的视觉定位技术

在自动驾驶、机器人导航、AR/VR等领域，实时精准的定位与建图是核心挑战。2020年，由西班牙巴塞罗那自治大学（UAB）研发的ORB-SLAM3横空出世，彻底改变了视觉SLAM（Simultaneous Localization and Mapping，同时定位与地图构建）的技术格局。作为ORB-SLAM系列的第三代作品，它首次实现了单目、双目、RGB-D与IMU的深度融合，并创新性地引入Atlas多地图管理系统，解决了传统SLAM在长距离导航中地图漂移、内存溢出的痛点。本文将从理论到实践，全面解析ORB-

2025-07-30 11:46:29 643

原创 AE、VAE与GAN简明指南：三大生成模型对比

AE、VAE与GAN简明对比指南本文对比了三种主流生成模型的核心特点： AE（自编码器）：通过编码-解码结构压缩还原数据，结构简单但生成能力有限，适合压缩和去噪任务。 VAE（变分自编码器）：在AE基础上加入概率分布，使隐空间连续可插值，能生成新样本，适用于数据增强和可控生成。 GAN（生成对抗网络）：采用生成器与判别器对抗训练，生成质量最佳但训练难度大，适合高质量图像生成任务。三种模型各具优势：AE简单易用，VAE平衡质量与稳定性，GAN生成效果最优但需精细调参。选择时需权衡复杂度、训练稳定性和生成质

2025-07-29 16:44:11 886

原创 Stable Diffusion推导与理解：从文本到图像的生成革命

Stable Diffusion是一种突破性的文本到图像生成模型，通过将扩散过程迁移到潜空间并引入文本条件机制，实现了高效可控的图像生成。其核心架构包含VAE（负责图像压缩）、CLIP文本编码器和条件U-Net三个组件。模型通过交叉注意力机制将文本条件融入扩散过程，并使用Classifier-Free Guidance技术精确控制文本引导强度。相比传统扩散模型，Stable Diffusion通过在潜空间（64×64×4）而非像素空间（512×512×3）操作，将计算量降低约48倍，同时保持生成质量。这种创

2025-07-29 16:00:51 750

原创 DDIM解析：从DDPM到高效采样的进化

摘要： DDIM（去噪扩散隐式模型）是针对DDPM采样速度慢问题的改进方案。通过引入非马尔可夫过程，DDIM实现了20-50倍的采样加速，而保持生成质量。其核心创新在于：1）将前向过程推广为隐式概率模型；2）允许确定性采样（σ_t=0）；3）支持任意子序列跳步采样。实际应用中，DDIM在需要快速响应（50步）、原型验证（20步）或可控生成时优势明显，而DDPM仍适用于理论研究或最高质量要求场景。该技术为扩散模型的工业部署提供了关键解决方案。

2025-07-29 15:20:53 842

原创 DDPM推导与理解：从数学建模到实际应用

本文系统介绍了去噪扩散概率模型(DDPM)的数学原理与应用。首先阐述DDPM所需的三个核心数学概念：马尔科夫链的无记忆性、贝叶斯公式的概率更新机制，以及正态分布的关键性质。随后详细解析DDPM的两阶段过程：前向扩散通过逐步加噪将数据转为高斯分布，反向去噪则学习逆转该过程。训练目标为变分下界(ELBO)，简化为预测噪声的均方误差。噪声预测网络ε_θ(x_t,t)是模型核心，学习从带噪图像中估计真实噪声。最后描述了采样过程，从纯噪声出发，通过迭代去噪生成高质量图像。全文展示了DDPM如何从严谨数学理论出发，构建

2025-07-29 12:32:39 1031

原创 LangGraph快速入门&项目部署

LangGraph框架核心要点总结 LangGraph是LangChain生态中的新一代Agent开发框架，采用图结构进行任务编排，相比传统链式结构更具灵活性。其核心特点包括三层API架构（底层图结构API→Agent API→预构建Agent），支持有状态循环图，并实现与LangChain的深度集成。框架提供两种主要开发方式：通过React Agent模式快速接入自定义工具（如天气查询API）或LangChain内置工具（搜索、数据库等），以及底层图结构API的精细控制。开发示例展示了3行代码创建Agen

2025-07-27 22:36:18 897

原创 LangGraph底层API入门总结

LangGraph图结构基础摘要 LangGraph的核心是基于图结构的工作流系统，通过节点(Nodes)和边(Edges)构建执行流程。关键概念包括：图结构组成：节点代表可执行功能单元（如LLM接口、检索工具等）边定义节点间的执行顺序状态(State)在节点间传递和更新数据构建流程：使用StateGraph类创建图构建器通过add_node添加功能节点通过add_edge定义执行路径使用compile方法生成可执行图状态管理：节点只需返回要更新的状态部分系统自动维护完整状态上下文

2025-07-27 17:26:15 1180

原创 Browser-use部署与使用及技术分析

Browser-use部署与使用及技术分析

2025-04-09 15:36:18 460

原创 flask遇到requests.exceptions.ConnectionError: (‘Connection aborted.‘, ConnectionResetError(104, ‘Conne

requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))

2025-04-01 14:34:51 595

原创 ModuleNotFoundError: No module named ‘talib‘

talib

2025-03-28 17:32:15 525

原创 label studio+sam实现半自动标注

label_strudio+sam

2024-11-22 17:46:15 443

原创多模态大模型下的目标检测任务

多模态大模型下的目标检测任务

2024-11-05 17:30:49 1807

原创文本rerank与图像rerank

文本rerank与图像rerank

2024-08-08 11:02:31 494

原创服务器上部署GPU版的milvus向量数据库

服务器上部署GPU版的milvus向量数据库

2024-04-15 11:00:30 1959 3

原创 Agent——客服机器人(大模型+本地数据/话术+在线数据库)

只能客服机器人的特点，根据本地资料，回答用户问题，告别传统机器人的答非所问，同时根据用户回答，判断用户意向度，并询问感兴趣用户的个人信息，获得后，保存在数据库中，以便人工客服，进行后续跟进！

2024-04-09 18:06:47 1443

原创 Agent——GPTs构建广告文案(只需一个网址链接即可模仿生成你想要的文案及配图)

功能介绍：假如我看到一篇文案写的非常好，想要学习模仿，写一篇既要相似又要不同的文案，该如果做？传统做法我们至少需要两个相关工作人员，一个文案，一个插画。但是现在，只需一个链接，你没听错！

2024-04-03 18:28:04 969

原创压力测试(QPS)及测试工具Locust

压力测试：确定接口或服务能够处理的最大请求量（吞吐量）和并发用户数，同时保持合理的响应时间和稳定性。

2024-03-26 11:40:32 4332 2

原创 vscode调试debug，launch.json文件‘args’无法发传递给脚本

launch.json中的"name"参数不要随便起，要与执行的文件名一致！注意看链接帖子的评论。

2024-01-17 19:30:05 673

原创特征向量检索中的Query Expansion应用

查询扩展（Query Expansion）是一种在信息检索领域常用的技术，旨在改善检索结果的准确性和覆盖范围。它通过扩展查询以包含更多相关的信息，从而提高检索系统的性能。

2023-11-07 15:24:41 460

转载图像检索：BoW图像检索原理与实战

https://yongyuan.name/blog/CBIR-BoW-for-image-retrieval-and-practice.html

2023-11-07 13:49:53 204

原创 PyTorch SimCLR: A Simple Framework for Contrastive Learning of Visual Representations

对比学习，SimCLR

2023-09-12 17:50:40 308

原创定时调度库 Schedule Library

定时调度库 Schedule Library

2023-06-30 14:12:08 296

原创 LoRA原理解析

LoRA 的全称是 “Low-Rank Adaption”，看到 “low-rank”，线性代数玩家们应该会神经反射性地联系到低秩矩阵。你问我 LoRA 的中文名？就叫它“低秩(自)适应”吧，虽然英文里没有 “self”，但根据 LoRA 的思想和做法及其带来的效果，它就是自适应的意思。作者在 paper 中提到：以往的一些工作表明，模型通常是“**过参数化”(over-parametrized)**的，它们在优化过程中参数更新的部分通常“驻扎”(reside)在低维子空间中。

2023-06-09 17:25:07 905

原创利用python关键字global，加载模型，提升代码效率！

利用python关键字global，加载复杂函数，提升代码速度！

2023-03-30 18:17:37 694

原创 ViT(Vision Transformer) & TNT(Transformer in Transformer)

视觉Transformer开篇之作ViT& TNT

2023-03-03 17:17:32 956

原创 Transformer实战之Bert

Bidirectional Encoder Representations from Transformers

2023-03-03 15:24:25 239

原创理解Transformer

Transformer is all your need！

2023-03-03 10:27:10 984

原创 fastapi使用uvicorn启动的两张方式

【代码】fastapi使用uvicorn启动的两张方式。

2022-11-15 10:42:15 5024

原创 anconda常用命令行

【代码】anconda常用命令行。

2022-11-14 15:53:25 290

原创清理conda中没有用的安装包

conda清理空间

2022-10-19 15:27:35 2255

原创 nohup、reboot

【代码】nohup、reboot。

2022-10-18 18:16:37 1175

原创 Linux服务器常见问题解决

Linux服务器常见问题解决

2022-10-09 15:01:13 428

转载 Pytorch多显卡训练

参考链接：https://blog.csdn.net/leviopku/article/details/109318226

2022-09-27 16:23:08 292

原创 python魔术方法setattr、getattr解析

__setattr__、__getattr__解析

2022-09-26 17:18:46 593

原创 python魔术方法getitem解析

【代码】python魔术方法__getitem__解析。

2022-09-20 18:28:58 1046

原创 TaiChi Lang 让Python代码提速100倍！（高性能计算、图形学、仿真等领域；加速 Python 中计算密集任务程序；希望使用 Python 开发但部署到其它环境）

Taichi 起步于 MIT 的计算机科学与人工智能实验室（CSAIL），设计初衷是便利计算机图形学研究人员的日常工作，帮助他们快速实现适用于 GPU 的视觉计算和物理模拟算法。Taichi 选择了一条创新的路径：嵌入于 Python，使用即时编译（JIT）架构（如 LLVM、SPIR-V），将 Python 源代码转化为 GPU 或 CPU 的原生指令，在开发时和运行时均提供优越性能。当然，以 Python 为前端的领域特定语言（DSL）不是什么新奇的创造。

2022-09-19 11:07:28 1499

Kaggle"Dogs vs.Cats"项目数据集

在这个数据集的训练数据集中一共有 25000张猫和狗的图片，其中包含12500张猫的图片和12500张狗的图片。在测试数据集中有12500张图片，不过其中的猫狗图片是无序混杂的，而且没有对应的标签。这些数据集将被用于对模型进行训练和对参数进行优化，以及在最后对模型的泛化能力进行验证。

2020-09-25

opencv_face_detector.zip

1、opencv_face_detector_uint8；2、opencv_face_detector.pbtxt

2021-09-07

imglab.zip

下载后，打开README.txt查看使用，进入bulid--》Release，然后就可以看到imglab.exe文件

2019-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人