- 博客(20)
- 收藏
- 关注
原创 强化学习:Distributed PPO (DPPO) 学习笔记
DPPO = Distributed + Proximal Policy OptimizationDistributed:多个智能体并行训练Proximal:限制策略更新幅度,确保稳定性Policy Optimization:基于策略梯度的优化方法核心思想:多个智能体并行探索环境,共享经验,通过裁剪策略更新确保训练稳定
2025-07-07 09:52:21
712
原创 强化学习:Proximal Policy Optimization(PPO)学习笔记
PPO(Proximal Policy Optimization)是一种用于优化策略网络的无模型强化学习算法,由OpenAI在2017年提出。它的主要目标是在不进行大量样本交互的情况下,高效地更新策略网络,同时避免策略更新过程中出现过大的策略变化,从而提高训练的稳定性和效率。PPO有两种主要的实现方式:基于KL散度惩罚(KL penalty)和裁剪代理目标(Clipped surrogate objective),本代码中使用的是裁剪代理目标的方法。
2025-07-07 09:50:32
637
原创 强化学习:Asynchronous Advantage Actor-Critic (A3C) 学习笔记
Asynchronous Advantage Actor-Critic (A3C) 是一种高效的分布式强化学习算法,通过并行训练多个智能体提高样本效率和训练稳定性。
2025-07-04 15:51:27
245
原创 强化学习:Deep Deterministic Policy Gradient (DDPG) 学习笔记
DDPG 是一种无模型、离线策略(off-policy)的 Actor-Critic 算法,专为连续动作空间设计。
2025-07-03 15:08:55
801
原创 强化学习:Actor Critic 学习笔记
Actor Critic(演员-评论家)算法是强化学习中的经典策略梯度方法,通过结合策略网络(Actor)和值网络(Critic),平衡了样本效率和学习稳定性。
2025-07-02 17:12:48
1145
原创 强化学习:Policy Gradients 学习笔记
Policy Gradient(基于 Softmax 的策略梯度算法)是强化学习中的经典策略梯度方法,通过直接优化策略函数来最大化累积奖励。
2025-07-01 19:19:43
1584
原创 强化学习:Dueling DQN 学习笔记
Dueling DQN(竞争型深度 Q 网络)是 DQN 的重要改进,通过将 Q 值分解为状态价值函数(V)和优势函数(A),提高对状态价值和动作优势的建模能力。
2025-06-30 17:14:00
714
原创 强化学习:Prioritized Experience Replay 学习笔记
Prioritized Experience Replay(PER)是强化学习的智能记忆管理技术。它通过TD-error(预测误差) 评估经验价值,优先学习高误差样本。核心创新是SumTree数据结构,实现O(logN)高效抽样。结合重要性采样权重避免偏差,显著提升训练效率。
2025-06-26 09:47:50
858
原创 强化学习:DQN (Deep Q-Network) 学习笔记
DQN(深度Q网络)将深度神经网络引入Q-learning,解决高维状态空间的维度灾难问题。其核心创新为:经验回放和目标网络。通过ε-贪婪策略平衡探索与利用,实现端到端学习。在Atari游戏中首次超越人类表现,奠定深度强化学习基石,但存在训练不稳定、高估偏差等局限。
2025-06-25 16:10:46
717
原创 强化学习:Sarsa、Sarsa(λ) 学习笔记
Sarsa 是在线策略强化学习算法,通过状态-动作对 (s,a,r,s',a') 更新 Q 值,与 Q-learning 区别在于更新时用实际选的下一个动作 a' 而非最大 Q 值动作,更保守。Sarsa(λ) 引入资格迹,使奖励影响之前状态-动作对。
2025-06-23 15:45:00
724
原创 强化学习:Q-learning 学习笔记
Q-learning是一种强化学习算法,旨在通过与环境交互让智能体学会最优决策策略。其核心在于学习Q值表,用于评估特定状态下采取某个动作的长期价值。
2025-06-21 14:30:00
1644
原创 强化学习简介
强化学习是机器学习分支,通过与环境交互试错学习,依奖励调整策略。算法分价值(如 Q 学习、DQN)、策略(如 Policy Gradients)、模型(Model-based)三类,可从环境理解、决策依据等维度分类。近年与深度学习结合,在游戏(如 AlphaGo)等领域应用广泛,学习不依赖特定模块,适合初学者掌握底层原理。
2025-06-20 14:32:51
674
原创 HTML基础01:元素分类与常见标签详解
作为HTML小白,理解元素分类和常见标签是入门的关键。HTML元素主要分为块级元素、行块级元素(也叫行内块元素)和行级元素(也叫行内元素),它们各自有着独特的显示和属性设置特点。
2025-02-18 18:39:10
556
原创 Python 02 (Python基础语法学习)
在Python程序里,变量是一种在程序运行时用于存储数据的载体,它就像是一个“容器”。变量名 = 变量值。这里的“=”被称为赋值运算符,它的作用是把等号右边的值存储到左边的变量中。比如age = 18,“age”就是变量名,它是这个“容器”的标识,方便在程序的其他地方使用这个变量;“18”是变量值,也就是存放在“容器”里的数据。在Python程序中,给变量、方法、类等起的名字统称为标识符,用于标识这些内容。单引号定义法'字符串'。若字符串含单引号,需用转义。text1 = '普通字符串'
2025-02-18 17:41:28
1503
原创 在vue表单渲染渲染数显示Invalid prop: custom validator check failed for prop “index“.
Invalid prop: custom validator check failed for prop "index".解决
2024-06-05 18:32:33
408
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人