
强化学习
文章平均质量分 88
强化学习入门ing,在这里,我将分享学习到的强化学习相关知识
几度热忱
心中醒,口中说,纸上作,不从身上习过,皆无用也。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【具身相关】legged_gym, isaacgym、rsl_rl关系梳理及相关笔记
【legged_gym】legged_gym, isaacgym代码逻辑梳理总体关系IsaacGymlegged_gymrsl_rl三者的关系legged_gym代码库介绍环境模块env原创 2025-03-12 23:43:43 · 3788 阅读 · 0 评论 -
【isaacgym报错】安装isaacgym运行报错RuntimeError: Error building extension ‘gymtorch‘
【isaacgym报错】安装isaacgym运行报错RuntimeError: Error building extension 'gymtorch'环境配置报错场景报错信息解决方法原创 2025-03-12 18:24:59 · 1470 阅读 · 0 评论 -
【强化学习基础算法】基础算法:贪婪算法 策略迭代 价值迭代 Sarsa Q-learning核心思想简介
【强化学习基础算法】基础算法:贪婪算法 策略迭代 价值迭代 Sarsa Q-learning核心思想简介贪婪算法ϵϵ-贪婪算法递减的ϵϵ-贪婪算法上置信界算法UCB汤普森采样法基于动态规划的强化学习算法策略迭代价值迭代时序差分算法Sarsa算法Q-learningN步sarsa算法参考文献原创 2025-03-02 13:37:52 · 1087 阅读 · 0 评论 -
【强化学习】Stable-Baselines3学习笔记
这三个项目都是Stable Baselines3生态系统的一部分,它们共同提供了一个全面的工具集,用于强化学习的研究和开发。SB3提供了核心的强化学习算法实现,而RL Baselines3 Zoo提供了一个训练和评估这些算法的框架。SB3 Contrib则作为实验性功能的扩展库,SBX则探索了使用Jax来加速这些算法的可能性。原创 2024-12-23 16:52:20 · 5482 阅读 · 0 评论 -
【Easy RL】Easy RL蘑菇书全书学习笔记
【Easy RL】Easy RL蘑菇书全书学习笔记第一章 强化学习基础1.1 强化学习概述监督学习强化学习与监督学习的不同之处二者的区别总结强化学习的特征强化学习的优越性预演(rollout)和 轨迹(trajectory)的概念端到端的概念深度强化学习(deep reinforcemet learning)sim2real1.2序列决策基本概念状态和观测的关系环境信息完全可观测-->马尔科夫决策过程环境信息部分可观测-->部分可观测马尔可夫决策过程原创 2024-10-07 22:01:20 · 1770 阅读 · 0 评论 -
【强化学习环境搭建】mujoco,mujoco_py,d4rl等强化学习相关资源安装及使用的参考资料链接 持续更新ing
【强化学习环境搭建】mujoco,mujoco_py,d4rl等强化学习相关资源安装及使用的参考资料链接 持续更新ing1.安装mujoco2.安装mujoco_py3.安装d4rl4.安装gym或gymnasium在此博客中记录一些配置强化学习环境时 遇到的优质参考资料,持续更新ing~原创 2024-09-11 21:04:55 · 714 阅读 · 0 评论 -
【强化学习】gymnasium自定义环境并封装学习笔记
【强化学习】gymnasium自定义环境并封装学习笔记gym与gymnasium简介gymgymnasiumgymnasium的基本使用方法使用gymnasium封装自定义环境官方示例及代码编写环境文件__init__()方法reset()方法step()方法render()方法close()方法注册环境创建包 Package(最后一步)创建自定义环境示例原创 2024-06-12 16:39:33 · 5717 阅读 · 0 评论 -
【强化学习】DPO(Direct Preference Optimization)算法学习笔记
【强化学习】DPO(Direct Preference Optimization)算法学习笔记RLHF与DPO的关系KL散度Bradley-Terry模型DPO算法流程原创 2024-05-30 20:14:27 · 13018 阅读 · 0 评论 -
【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程
【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程RLHF训练的三个步骤步骤1:收集数据与有监督训练策略步骤2:收集数据训练奖励模型步骤3:结合奖励模型利用强化学习算法如PPO算法来优化策略参考内容原创 2024-05-29 11:03:14 · 2427 阅读 · 0 评论 -
【强化学习】Q-learning,DQN,SARSA算法介绍
【强化学习】Q-learning,DQN,SARSA算法介绍强化学习算法分类基于价值的方法基于策略的方法Actor-Critic方法Q-learning算法DQN算法强化学习训练数据存在的问题经验回放机制备份网络机制Sarsa算法总结原创 2024-05-27 18:13:59 · 1325 阅读 · 0 评论 -
【强化学习】强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念
【强化学习】强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念1.基础概念1.1 强化学习的定义1.2 强化学习的基本要素2.强化学习分类2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与原创 2024-05-27 10:11:45 · 9818 阅读 · 0 评论 -
【动手学强化学习】第 7 章 DQN算法知识点总结
【动手学强化学习】第 7 章 DQN算法知识点总结本章知识点离散和连续的概念CartPole 环境DQN算法简介�Q网络的损失函数经验回放目标网络DQN 代码实践关于代码的思考及各变量的维度问题适用于以图像为输入的 Q网络原创 2024-05-24 19:02:36 · 910 阅读 · 0 评论 -
【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结
【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结本章知识点基于模型的强化学习与无模型的强化学习方法简介无模型的强化学习方法基于模型的强化学习方法强化学习算法的评价指标Dyna-Q算法Dyna-Q 算法的具体流程Dyna-Q 代码实践原创 2024-05-23 12:50:47 · 904 阅读 · 0 评论 -
【动手学强化学习】第 5 章 时序差分算法知识点总结
【动手学强化学习】第 5 章 时序差分算法知识点总结本章知识点:动态规划与时序差分(temporal difference,TD)的区别时序差分Sarsa算法多步Sarsa算法Q-learning算法在线策略学习和离线策略学习原创 2024-05-15 15:04:47 · 1088 阅读 · 0 评论 -
【动手学强化学习】第四章 动态规划算法知识点总结
【动手学强化学习】第四章 动态规划算法知识点总结 动态规划简介 基于动态规划的强化学习算法 悬崖漫步环境 策略迭代算法 策略评估:根据ππ计算VπVπ 策略提升:根据VπVπ优化ππ 策略提升定理的证明 策略迭代 价值迭代算法 收敛性证明 策略迭代 价值迭代 总结原创 2024-04-13 23:19:33 · 1366 阅读 · 0 评论 -
【动手学强化学习】第三章 马尔可夫决策过程 知识点总结
【动手学强化学习】第三章 马尔可夫决策过程 知识点总结本章知识点:马尔可夫性质马尔可夫过程(也称为马尔可夫链)马尔可夫奖励过程马尔可夫决策过程策略马尔可夫决策过程的状态价值函数马尔可夫决策过程的动作价值函数状态价值函数与动作价值函数的关系贝尔曼期望方程MDP马尔可夫决策过程转换为MRP马尔可夫奖励过程蒙特卡洛方法占用度量最优策略贝尔曼最优方程(Bellman optimality equation)原创 2024-04-08 12:09:46 · 1296 阅读 · 0 评论 -
【动手学强化学习】第二章 多臂老虎机问题 知识点总结
【动手学强化学习】第二章 多臂老虎机问题本章知识点:探索与利用的含义、多臂老虎机问题、累积懊悔的定义、增量式更新期望奖励、经典探索策略(ϵ-贪婪算法、上置信界UCB算法、汤普森采样算法)原创 2024-04-06 11:41:30 · 2828 阅读 · 0 评论 -
【动手学强化学习】第一章 初探强化学习知识点总结
动手学强化学习 第一章主要的知识点:强化学习的定义、要素、环境、目标、预测与决策的区别、有监督学习与强化学习的区别原创 2024-04-01 23:16:44 · 1121 阅读 · 0 评论 -
【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程
1.回报2.当前时刻的回报与下一时刻回报的关系3.状态价值函数4.动作价值函数5.状态价值函数与动作状态价值函数的关系6.贝尔曼期望方程7.状态价值函数的贝尔曼期望方程8.动作价值函数的贝尔曼期望方程9.贝尔曼期望方程的另一种理解方式,结合下图理解原创 2024-03-21 15:53:14 · 876 阅读 · 0 评论 -
【强化学习】安装gym==0.18.3报错的解决方法
安装gym==0.18.3报错的解决方法Collecting gym==0.18.3 Using cached gym-0.18.3.tar.gz (1.6 MB) Preparing metadata (setup.py) ... error error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [1 lines原创 2024-03-18 10:37:52 · 3271 阅读 · 2 评论 -
【Reinforcement Learning】Ubuntu中mujoco210 mujoco_py D4RL安装及错误解决
【Reinforcement Learning】Ubuntu中mujoco210 mujoco_py D4RL安装及错误解决本文根据一篇知乎文章进行配置,记录在配置过程中遇到的一些问题,原文作者的教程很详细原创 2023-10-20 21:14:35 · 2439 阅读 · 0 评论