- 博客(263)
- 资源 (3)
- 收藏
- 关注
原创 从DDPM对比学习Diffusion Policy:生成模型到策略学习的演进
本文《从DDPM对比学习Diffusion Policy:生成模型到策略学习的演进》系统地对比分析了DDPM(Denoising Diffusion Probabilistic Models)与Diffusion Policy两种基于扩散模型的技术,并深入探讨了Diffusion Policy在机器人抓取任务中的实际应用。
2025-08-10 22:17:22
664
原创 深入理解强化学习:近端策略优化(PPO)算法详解
摘要:近端策略优化(PPO)算法详解 PPO算法是强化学习领域的重要突破,解决了传统策略梯度方法在更新步长敏感性和数据利用率上的局限。基于马尔可夫决策过程框架,PPO通过引入裁剪机制和优势函数估计,在保持训练稳定性的同时简化了计算。核心公式L^CLIP(θ)采用概率比率裁剪技术,将策略更新幅度限制在[1-ε,1+ε]范围内,有效平衡了探索与利用。PPO结合广义优势估计(GAE)和熵正则化项,既保证了性能又提高了采样效率,成为解决复杂决策任务的优选算法。其简洁实现和优异表现使其在学术界和工业界广受青睐。
2025-08-09 15:28:09
807
原创 机器人仿真与强化学习:从虚拟到现实的智能之路
机器人仿真与强化学习:虚拟环境训练智能体的关键技术 摘要:机器人仿真技术为强化学习提供了安全高效的训练平台,通过精确模拟物理环境和交互过程,使智能体能在虚拟世界中积累经验。文章系统阐述了观测空间与奖励函数的设计原则,对比分析了PPO、SAC等主流强化学习算法的适用场景,并以机械臂抓取任务为例展示了完整实现流程。仿真环境的数据生成优势在于无限次重置、安全模拟危险场景和低成本测试极端条件。通过域随机化技术,虚拟环境中训练的策略可迁移至现实世界,形成"仿真训练-现实应用"的闭环。该技术已在机器
2025-08-05 20:46:01
707
原创 LangGraph快速搭建新一代信息检索增强工具DeepResearch
基于LangGraph的深度研究智能体开发 本摘要介绍了一个基于LangGraph框架构建的自主研究智能体系统,能够自动完成从问题理解到报告生成的完整研究流程。项目采用三阶段流水线架构: 规划阶段:通过LLM生成5-7个相关搜索查询 搜索阶段:使用TavilyAPI执行网络搜索并生成摘要 写作阶段:综合搜索结果输出结构化研究报告 技术特点: 全流程JSON模式结构化输出 支持中文长文本生成(2000+字符) 内置验证机制处理异常情况 可视化工作流跟踪 核心组件包括规划器、搜索代理和写作器三个模块,通过Lan
2025-08-01 00:57:33
676
原创 ORB-SLAM3入门指南:从理论到实践的视觉定位技术
在自动驾驶、机器人导航、AR/VR等领域,实时精准的定位与建图是核心挑战。2020年,由西班牙巴塞罗那自治大学(UAB)研发的ORB-SLAM3横空出世,彻底改变了视觉SLAM(Simultaneous Localization and Mapping,同时定位与地图构建)的技术格局。作为ORB-SLAM系列的第三代作品,它首次实现了单目、双目、RGB-D与IMU的深度融合,并创新性地引入Atlas多地图管理系统,解决了传统SLAM在长距离导航中地图漂移、内存溢出的痛点。本文将从理论到实践,全面解析ORB-
2025-07-30 11:46:29
643
原创 AE、VAE与GAN简明指南:三大生成模型对比
AE、VAE与GAN简明对比指南 本文对比了三种主流生成模型的核心特点: AE(自编码器):通过编码-解码结构压缩还原数据,结构简单但生成能力有限,适合压缩和去噪任务。 VAE(变分自编码器):在AE基础上加入概率分布,使隐空间连续可插值,能生成新样本,适用于数据增强和可控生成。 GAN(生成对抗网络):采用生成器与判别器对抗训练,生成质量最佳但训练难度大,适合高质量图像生成任务。 三种模型各具优势:AE简单易用,VAE平衡质量与稳定性,GAN生成效果最优但需精细调参。选择时需权衡复杂度、训练稳定性和生成质
2025-07-29 16:44:11
886
原创 Stable Diffusion推导与理解:从文本到图像的生成革命
Stable Diffusion是一种突破性的文本到图像生成模型,通过将扩散过程迁移到潜空间并引入文本条件机制,实现了高效可控的图像生成。其核心架构包含VAE(负责图像压缩)、CLIP文本编码器和条件U-Net三个组件。模型通过交叉注意力机制将文本条件融入扩散过程,并使用Classifier-Free Guidance技术精确控制文本引导强度。相比传统扩散模型,Stable Diffusion通过在潜空间(64×64×4)而非像素空间(512×512×3)操作,将计算量降低约48倍,同时保持生成质量。这种创
2025-07-29 16:00:51
750
原创 DDIM解析:从DDPM到高效采样的进化
摘要: DDIM(去噪扩散隐式模型)是针对DDPM采样速度慢问题的改进方案。通过引入非马尔可夫过程,DDIM实现了20-50倍的采样加速,而保持生成质量。其核心创新在于:1)将前向过程推广为隐式概率模型;2)允许确定性采样(σ_t=0);3)支持任意子序列跳步采样。实际应用中,DDIM在需要快速响应(50步)、原型验证(20步)或可控生成时优势明显,而DDPM仍适用于理论研究或最高质量要求场景。该技术为扩散模型的工业部署提供了关键解决方案。
2025-07-29 15:20:53
842
原创 DDPM推导与理解:从数学建模到实际应用
本文系统介绍了去噪扩散概率模型(DDPM)的数学原理与应用。首先阐述DDPM所需的三个核心数学概念:马尔科夫链的无记忆性、贝叶斯公式的概率更新机制,以及正态分布的关键性质。随后详细解析DDPM的两阶段过程:前向扩散通过逐步加噪将数据转为高斯分布,反向去噪则学习逆转该过程。训练目标为变分下界(ELBO),简化为预测噪声的均方误差。噪声预测网络ε_θ(x_t,t)是模型核心,学习从带噪图像中估计真实噪声。最后描述了采样过程,从纯噪声出发,通过迭代去噪生成高质量图像。全文展示了DDPM如何从严谨数学理论出发,构建
2025-07-29 12:32:39
1031
原创 LangGraph快速入门&项目部署
LangGraph框架核心要点总结 LangGraph是LangChain生态中的新一代Agent开发框架,采用图结构进行任务编排,相比传统链式结构更具灵活性。其核心特点包括三层API架构(底层图结构API→Agent API→预构建Agent),支持有状态循环图,并实现与LangChain的深度集成。框架提供两种主要开发方式:通过React Agent模式快速接入自定义工具(如天气查询API)或LangChain内置工具(搜索、数据库等),以及底层图结构API的精细控制。开发示例展示了3行代码创建Agen
2025-07-27 22:36:18
897
原创 LangGraph底层API入门总结
LangGraph图结构基础摘要 LangGraph的核心是基于图结构的工作流系统,通过节点(Nodes)和边(Edges)构建执行流程。关键概念包括: 图结构组成: 节点代表可执行功能单元(如LLM接口、检索工具等) 边定义节点间的执行顺序 状态(State)在节点间传递和更新数据 构建流程: 使用StateGraph类创建图构建器 通过add_node添加功能节点 通过add_edge定义执行路径 使用compile方法生成可执行图 状态管理: 节点只需返回要更新的状态部分 系统自动维护完整状态上下文
2025-07-27 17:26:15
1180
原创 flask遇到requests.exceptions.ConnectionError: (‘Connection aborted.‘, ConnectionResetError(104, ‘Conne
requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))
2025-04-01 14:34:51
595
原创 Agent——客服机器人(大模型+本地数据/话术+在线数据库)
只能客服机器人的特点,根据本地资料,回答用户问题,告别传统机器人的答非所问,同时根据用户回答,判断用户意向度,并询问感兴趣用户的个人信息,获得后,保存在数据库中,以便人工客服,进行后续跟进!
2024-04-09 18:06:47
1443
原创 Agent——GPTs构建广告文案(只需一个网址链接即可模仿生成你想要的文案及配图)
功能介绍:假如我看到一篇文案写的非常好,想要学习模仿,写一篇既要相似又要不同的文案,该如果做?传统做法我们至少需要两个相关工作人员,一个文案,一个插画。但是现在,只需一个链接,你没听错!
2024-04-03 18:28:04
969
原创 压力测试(QPS)及测试工具Locust
压力测试:确定接口或服务能够处理的最大请求量(吞吐量)和并发用户数,同时保持合理的响应时间和稳定性。
2024-03-26 11:40:32
4332
2
原创 vscode调试debug,launch.json文件‘args’无法发传递给脚本
launch.json中的"name"参数不要随便起,要与执行的文件名一致!注意看链接帖子的评论。
2024-01-17 19:30:05
673
原创 特征向量检索中的Query Expansion应用
查询扩展(Query Expansion)是一种在信息检索领域常用的技术,旨在改善检索结果的准确性和覆盖范围。它通过扩展查询以包含更多相关的信息,从而提高检索系统的性能。
2023-11-07 15:24:41
460
转载 图像检索:BoW图像检索原理与实战
https://yongyuan.name/blog/CBIR-BoW-for-image-retrieval-and-practice.html
2023-11-07 13:49:53
204
原创 PyTorch SimCLR: A Simple Framework for Contrastive Learning of Visual Representations
对比学习,SimCLR
2023-09-12 17:50:40
308
原创 LoRA原理解析
LoRA 的全称是 “Low-Rank Adaption”, 看到 “low-rank”,线性代数玩家们应该会神经反射性地联系到低秩矩阵。你问我 LoRA 的中文名?就叫它“低秩(自)适应”吧,虽然英文里没有 “self”, 但根据 LoRA 的思想和做法及其带来的效果,它就是自适应的意思。作者在 paper 中提到:以往的一些工作表明,模型通常是“**过参数化”(over-parametrized)**的,它们在优化过程中参数更新的部分通常“驻扎”(reside)在低维子空间中。
2023-06-09 17:25:07
905
原创 ViT(Vision Transformer) & TNT(Transformer in Transformer)
视觉Transformer开篇之作ViT& TNT
2023-03-03 17:17:32
956
原创 Transformer实战之Bert
Bidirectional Encoder Representations from Transformers
2023-03-03 15:24:25
239
转载 Pytorch多显卡训练
参考链接:https://blog.csdn.net/leviopku/article/details/109318226
2022-09-27 16:23:08
292
原创 TaiChi Lang 让Python代码提速100倍!(高性能计算、图形学、仿真等领域;加速 Python 中计算密集任务程序;希望使用 Python 开发但部署到其它环境)
Taichi 起步于 MIT 的计算机科学与人工智能实验室(CSAIL),设计初衷是便利计算机图形学研究人员的日常工作,帮助他们快速实现适用于 GPU 的视觉计算和物理模拟算法。Taichi 选择了一条创新的路径:嵌入于 Python,使用即时编译(JIT)架构(如 LLVM、SPIR-V),将 Python 源代码转化为 GPU 或 CPU 的原生指令,在开发时和运行时均提供优越性能。当然,以 Python 为前端的领域特定语言(DSL)不是什么新奇的创造。
2022-09-19 11:07:28
1499
Kaggle"Dogs vs.Cats"项目数据集
2020-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人