我真不是坐忘道~-CSDN博客

原创深度强化学习入门—PPO

带有裁剪机制的近端策略优化（PPO-Clip）是一种典型的基于策略的强化学习算法，它通过重要性采样降低交互成本，并引入裁剪技术限制策略更新幅度，从而稳定训练过程，使其成为高效且稳健的强化学习方法之一。

2025-02-05 10:54:34 1121

强化学习方法主要分为基于策略的方法和基于价值的方法等。Q表格就是一种基于价值函数的强化学习算法，通过更新状态-动作值表格/函数（Q表格/函数）来评估每个动作的价值。使用深度神经网络来近似Q学习中的Q表格/函数，同时辅助以一些稳定训练、加速收敛和随机探索的技巧，便形成了广泛应用的深度Q网络（DQN）。本文分为基础和进阶两个部分，旨在由浅入深地帮助学习者掌握DQN的基础知识、核心原理以及实际应用中的先进技术。

2025-01-29 20:17:36 1132

原创强化学习算法入门——目标函数、策略梯度原理与优势函数

强化学习大致分为基于值函数的强化学习、基于策略的强化学习、基于策略和值函数的强化学习。本文会从目标函数开始介绍，逐步引入一种最简单的基于策略的强化学习算法——策略梯度算法，最后介绍了能够提高决策效率的优势函数公式。掌握策略梯度算法是进入强化学习领域的重要一步。许多后续强化学习算法的提出，都是在该算法的基础上不断优化和改进，特别是通过结合不同的策略和价值函数方法来增强算法的效率和效果。

2024-10-28 09:57:15 2033

原创探索机器学习的分类：监督学习、无监督学习、半监督学习与强化学习

本文对机器学习的四大类-监督学习、无监督学习、半监督学习和强化学习进行了介绍，并列举了每个类别下的经典算法。同时，文章对监督学习、无监督学习、强化学习算法进行了深入的比较，分析了它们的适用性和优缺点等。希望通过这一系列的分析，能够加深大家对机器学习各类方法的理解，帮助大家在实际问题上做出合适的算法选择。

2024-10-24 13:54:22 2786

原创强化学习新手入门

强化学习作为机器学习中一个至关重要的领域，它构建了一个充满探索与反馈的动态过程。在这个过程中，智能体就如同一位不断摸索的学习者，试图在与环境的反复交互中，找寻那一条能够引领其获取最大累积奖励的最优策略。在图中，机器人面对一个环境，这个环境中有不同的物体（如球或障碍物），它需要通过行动来影响环境。箭头指示了智能体如何通过动作与环境进行交互（例如，它可以控制球向某个方向移动或者执行推球动作等），同时从环境中获得反馈（奖励或惩罚），这一过程反映了强化学习的机制。

2024-10-22 15:57:00 1998

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_40641591的博客

原创深度强化学习入门—PPO

原创深度强化学习入门—DQN

原创强化学习算法入门——目标函数、策略梯度原理与优势函数

原创探索机器学习的分类：监督学习、无监督学习、半监督学习与强化学习

原创强化学习新手入门

空空如也

空空如也

原创 深度强化学习入门—PPO

原创 深度强化学习入门—DQN

原创 强化学习算法入门——目标函数、策略梯度原理与优势函数

原创 探索机器学习的分类：监督学习、无监督学习、半监督学习与强化学习

原创 强化学习新手入门

空空如也

空空如也

原创深度强化学习入门—PPO

原创深度强化学习入门—DQN

原创强化学习算法入门——目标函数、策略梯度原理与优势函数

原创探索机器学习的分类：监督学习、无监督学习、半监督学习与强化学习

原创强化学习新手入门