烨川南-CSDN博客

原创强化学习：Distributed PPO (DPPO) 学习笔记

DPPO = Distributed + Proximal Policy OptimizationDistributed：多个智能体并行训练Proximal：限制策略更新幅度，确保稳定性Policy Optimization：基于策略梯度的优化方法核心思想：多个智能体并行探索环境，共享经验，通过裁剪策略更新确保训练稳定

2025-07-07 09:52:21 712

原创强化学习：Proximal Policy Optimization（PPO）学习笔记

PPO（Proximal Policy Optimization）是一种用于优化策略网络的无模型强化学习算法，由OpenAI在2017年提出。它的主要目标是在不进行大量样本交互的情况下，高效地更新策略网络，同时避免策略更新过程中出现过大的策略变化，从而提高训练的稳定性和效率。PPO有两种主要的实现方式：基于KL散度惩罚（KL penalty）和裁剪代理目标（Clipped surrogate objective），本代码中使用的是裁剪代理目标的方法。

2025-07-07 09:50:32 637

原创强化学习：Asynchronous Advantage Actor-Critic (A3C) 学习笔记

Asynchronous Advantage Actor-Critic (A3C) 是一种高效的分布式强化学习算法，通过并行训练多个智能体提高样本效率和训练稳定性。

2025-07-04 15:51:27 245

原创强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记

DDPG 是一种无模型、离线策略（off-policy）的 Actor-Critic 算法，专为连续动作空间设计。

2025-07-03 15:08:55 801

原创强化学习：Actor Critic 学习笔记

Actor Critic（演员-评论家）算法是强化学习中的经典策略梯度方法，通过结合策略网络（Actor）和值网络（Critic），平衡了样本效率和学习稳定性。

2025-07-02 17:12:48 1145

原创强化学习：Policy Gradients 学习笔记

Policy Gradient（基于 Softmax 的策略梯度算法）是强化学习中的经典策略梯度方法，通过直接优化策略函数来最大化累积奖励。

2025-07-01 19:19:43 1584

原创强化学习：Dueling DQN 学习笔记

Dueling DQN（竞争型深度 Q 网络）是 DQN 的重要改进，通过将 Q 值分解为状态价值函数（V）和优势函数（A），提高对状态价值和动作优势的建模能力。

2025-06-30 17:14:00 714

原创 Python 04 （循环语句）

python 循环语句

2025-06-28 10:56:18 976

原创强化学习：Double DQN 学习笔记

Double DQN 针对 DQN 的高估偏差问题提出改进。核心思想是解耦动作选择与价值评估。

2025-06-27 14:15:00 796

原创强化学习：Prioritized Experience Replay 学习笔记

Prioritized Experience Replay（PER）是强化学习的智能记忆管理技术。它通过TD-error（预测误差）评估经验价值，优先学习高误差样本。核心创新是SumTree数据结构，实现O(logN)高效抽样。结合重要性采样权重避免偏差，显著提升训练效率。

2025-06-26 09:47:50 858

原创强化学习：DQN (Deep Q-Network) 学习笔记

DQN（深度Q网络）将深度神经网络引入Q-learning，解决高维状态空间的维度灾难问题。其核心创新为：经验回放和目标网络。通过ε-贪婪策略平衡探索与利用，实现端到端学习。在Atari游戏中首次超越人类表现，奠定深度强化学习基石，但存在训练不稳定、高估偏差等局限。

2025-06-25 16:10:46 717

原创强化学习：Sarsa、Sarsa(λ) 学习笔记

Sarsa 是在线策略强化学习算法，通过状态-动作对 (s,a,r,s',a') 更新 Q 值，与 Q-learning 区别在于更新时用实际选的下一个动作 a' 而非最大 Q 值动作，更保守。Sarsa(λ) 引入资格迹，使奖励影响之前状态-动作对。

2025-06-23 15:45:00 724

原创强化学习：Q-learning 学习笔记

Q-learning是一种强化学习算法，旨在通过与环境交互让智能体学会最优决策策略。其核心在于学习Q值表，用于评估特定状态下采取某个动作的长期价值。

2025-06-21 14:30:00 1644

原创强化学习简介

强化学习是机器学习分支，通过与环境交互试错学习，依奖励调整策略。算法分价值（如 Q 学习、DQN）、策略（如 Policy Gradients）、模型（Model-based）三类，可从环境理解、决策依据等维度分类。近年与深度学习结合，在游戏（如 AlphaGo）等领域应用广泛，学习不依赖特定模块，适合初学者掌握底层原理。

2025-06-20 14:32:51 674

原创 Python 03 （判断语句）

在程序设计中，判断语句是基础且核心的部分，它能让程序根据不同条件执行不同操作。

2025-02-22 07:55:50 1444

原创 HTML基础01：元素分类与常见标签详解

作为HTML小白，理解元素分类和常见标签是入门的关键。HTML元素主要分为块级元素、行块级元素（也叫行内块元素）和行级元素（也叫行内元素），它们各自有着独特的显示和属性设置特点。

2025-02-18 18:39:10 556

原创 Python 02 （Python基础语法学习)

在Python程序里，变量是一种在程序运行时用于存储数据的载体，它就像是一个“容器”。变量名 = 变量值。这里的“=”被称为赋值运算符，它的作用是把等号右边的值存储到左边的变量中。比如age = 18，“age”就是变量名，它是这个“容器”的标识，方便在程序的其他地方使用这个变量；“18”是变量值，也就是存放在“容器”里的数据。在Python程序中，给变量、方法、类等起的名字统称为标识符，用于标识这些内容。单引号定义法'字符串'。若字符串含单引号，需用转义。text1 = '普通字符串'

2025-02-18 17:41:28 1503