自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 强化学习:Distributed PPO (DPPO) 学习笔记

DPPO = Distributed + Proximal Policy OptimizationDistributed:多个智能体并行训练Proximal:限制策略更新幅度,确保稳定性Policy Optimization:基于策略梯度的优化方法核心思想:多个智能体并行探索环境,共享经验,通过裁剪策略更新确保训练稳定

2025-07-07 09:52:21 712

原创 强化学习:Proximal Policy Optimization(PPO)学习笔记

PPO(Proximal Policy Optimization)是一种用于优化策略网络的无模型强化学习算法,由OpenAI在2017年提出。它的主要目标是在不进行大量样本交互的情况下,高效地更新策略网络,同时避免策略更新过程中出现过大的策略变化,从而提高训练的稳定性和效率。PPO有两种主要的实现方式:基于KL散度惩罚(KL penalty)和裁剪代理目标(Clipped surrogate objective),本代码中使用的是裁剪代理目标的方法。

2025-07-07 09:50:32 637

原创 强化学习:Asynchronous Advantage Actor-Critic (A3C) 学习笔记

Asynchronous Advantage Actor-Critic (A3C) 是一种高效的分布式强化学习算法,通过并行训练多个智能体提高样本效率和训练稳定性。

2025-07-04 15:51:27 245

原创 强化学习:Deep Deterministic Policy Gradient (DDPG) 学习笔记

DDPG 是一种无模型、离线策略(off-policy)的 Actor-Critic 算法,专为连续动作空间设计。

2025-07-03 15:08:55 801

原创 强化学习:Actor Critic 学习笔记

Actor Critic(演员-评论家)算法是强化学习中的经典策略梯度方法,通过结合策略网络(Actor)和值网络(Critic),平衡了样本效率和学习稳定性。

2025-07-02 17:12:48 1145

原创 强化学习:Policy Gradients 学习笔记

Policy Gradient(基于 Softmax 的策略梯度算法)是强化学习中的经典策略梯度方法,通过直接优化策略函数来最大化累积奖励。

2025-07-01 19:19:43 1584

原创 强化学习:Dueling DQN 学习笔记

Dueling DQN(竞争型深度 Q 网络)是 DQN 的重要改进,通过将 Q 值分解为状态价值函数(V)和优势函数(A),提高对状态价值和动作优势的建模能力。

2025-06-30 17:14:00 714

原创 Python 04 (循环语句)

python 循环语句

2025-06-28 10:56:18 976

原创 强化学习:Double DQN 学习笔记

Double DQN 针对 DQN 的高估偏差问题提出改进。核心思想是解耦动作选择与价值评估。

2025-06-27 14:15:00 796

原创 强化学习:Prioritized Experience Replay 学习笔记

Prioritized Experience Replay(PER)是强化学习的智能记忆管理技术。它通过TD-error(预测误差) 评估经验价值,优先学习高误差样本。核心创新是SumTree数据结构,实现O(logN)高效抽样。结合重要性采样权重避免偏差,显著提升训练效率。

2025-06-26 09:47:50 858

原创 强化学习:DQN (Deep Q-Network) 学习笔记

DQN(深度Q网络)将深度神经网络引入Q-learning,解决高维状态空间的维度灾难问题。其核心创新为:经验回放和目标网络。通过ε-贪婪策略平衡探索与利用,实现端到端学习。在Atari游戏中首次超越人类表现,奠定深度强化学习基石,但存在训练不稳定、高估偏差等局限。

2025-06-25 16:10:46 717

原创 强化学习:Sarsa、Sarsa(λ) 学习笔记

Sarsa 是在线策略强化学习算法,通过状态-动作对 (s,a,r,s',a') 更新 Q 值,与 Q-learning 区别在于更新时用实际选的下一个动作 a' 而非最大 Q 值动作,更保守。Sarsa(λ) 引入资格迹,使奖励影响之前状态-动作对。

2025-06-23 15:45:00 724

原创 强化学习:Q-learning 学习笔记

Q-learning是一种强化学习算法,旨在通过与环境交互让智能体学会最优决策策略。其核心在于学习Q值表,用于评估特定状态下采取某个动作的长期价值。

2025-06-21 14:30:00 1644

原创 强化学习简介

强化学习是机器学习分支,通过与环境交互试错学习,依奖励调整策略。算法分价值(如 Q 学习、DQN)、策略(如 Policy Gradients)、模型(Model-based)三类,可从环境理解、决策依据等维度分类。近年与深度学习结合,在游戏(如 AlphaGo)等领域应用广泛,学习不依赖特定模块,适合初学者掌握底层原理。

2025-06-20 14:32:51 674

原创 Python 03 (判断语句)

在程序设计中,判断语句是基础且核心的部分,它能让程序根据不同条件执行不同操作。

2025-02-22 07:55:50 1444

原创 HTML基础01:元素分类与常见标签详解

作为HTML小白,理解元素分类和常见标签是入门的关键。HTML元素主要分为块级元素、行块级元素(也叫行内块元素)和行级元素(也叫行内元素),它们各自有着独特的显示和属性设置特点。

2025-02-18 18:39:10 556

原创 Python 02 (Python基础语法学习)

在Python程序里,变量是一种在程序运行时用于存储数据的载体,它就像是一个“容器”。变量名 = 变量值。这里的“=”被称为赋值运算符,它的作用是把等号右边的值存储到左边的变量中。比如age = 18,“age”就是变量名,它是这个“容器”的标识,方便在程序的其他地方使用这个变量;“18”是变量值,也就是存放在“容器”里的数据。在Python程序中,给变量、方法、类等起的名字统称为标识符,用于标识这些内容。单引号定义法'字符串'。若字符串含单引号,需用转义。text1 = '普通字符串'

2025-02-18 17:41:28 1503

原创 Python 01 (新手小白入门+安装笔记)

Python 入门知识

2025-02-18 11:09:00 1139

原创 在vue表单渲染渲染数显示Invalid prop: custom validator check failed for prop “index“.

Invalid prop: custom validator check failed for prop "index".解决

2024-06-05 18:32:33 408 1

原创 arguments用法介绍

arguments 用法介绍

2024-06-04 23:30:50 567

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除