
王树森深度强化学习
文章平均质量分 96
nju_spy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
拿AI下围棋 -- 开源项目leela-zero
本文介绍了如何使用Leela Zero开源项目实现AI围棋对弈。通过下载Leela Zero引擎、权重文件和Lizzie图形界面,用户可以在命令行和GUI中运行AI围棋程序。文章详细说明了配置步骤,包括权重文件处理、OpenCL性能调优等,并展示了Lizzie界面的实时胜率分析和推荐落子功能。最后提供了命令行调试方法和GUI配置参数,帮助用户快速体验AI围棋对弈功能。原创 2025-08-24 14:02:05 · 1234 阅读 · 0 评论 -
王树森深度强化学习DRL(五)进阶策略梯度
本文介绍了强化学习中策略梯度方法的baseline优化技术,重点分析了REINFORCE with baseline和A2C算法。1) 证明baseline不影响策略梯度期望但能减小方差;2) 使用价值网络作为baseline优化REINFORCE算法的实现方法;3) 在倒立摆环境中的实战应用,展示了网络结构和训练流程;4) 推导A2C算法,比较其与REINFORCE的区别,指出A2C的价值网络能评估策略质量。文章通过理论推导和代码实现,说明了如何利用baseline技术提高策略梯度方法的稳定性和收敛速度。原创 2025-08-21 20:35:42 · 856 阅读 · 0 评论 -
森深度强化学习DRL(四)TD-Learning(Q&Sarsa)与价值学习进阶技巧
本文介绍了强化学习中的Fisher-Yates洗牌算法及其在经验回放中的应用,以及价值学习中的关键算法和进阶技巧。主要内容包括:1. Fisher-Yates洗牌算法详解,强调其在确保均匀随机采样中的作用;2. 价值学习算法比较,包括Q-Learning和Sarsa的实现差异;3. 经验回放机制的优化方法,如优先经验回放;4. 解决DQN高估问题的技术,包括目标网络和双Q学习;5. 对决网络和噪声网络等进阶技巧,通过分解状态价值和动作优势来提升性能。文章还提供了倒立摆案例的代码实现。原创 2025-08-20 01:16:12 · 1487 阅读 · 0 评论 -
王树森深度强化学习DRL(三)围棋AlphaGo+蒙特卡洛
系统梳理了 AlphaGo 的训练与执行流程,从行为克隆的模仿学习、策略网络的强化训练,到价值网络的评估与 蒙特卡洛树搜索(MCTS),逐步揭示了 AlphaGo 如何在复杂棋局中实现超越人类的智慧。特别指出 AlphaGo Zero 的突破:摒弃人类棋谱、完全依靠自我博弈与 MCTS,展现了人工智能自主学习的巨大潜力。同时笔记还结合 蒙特卡洛方法,阐述了其在积分估计、期望计算及 随机梯度下降(SGD) 中的核心作用,强调了通过采样近似期望来解决大规模优化问题的优势。整体内容兼顾原理与应用。原创 2025-08-19 00:00:56 · 1353 阅读 · 0 评论 -
王树森深度强化学习DRL(二)策略学习+ Actor-Critic(演员-裁判)Methods
基于策略的强化学习方法,包括策略梯度算法和Actor-Critic方法。策略学习通过神经网络π(a|s;θ)拟合策略函数,使用策略梯度更新参数θ。REINFORCE算法通过采样动作并计算累积回报进行训练。Actor-Critic方法结合价值网络和策略网络,价值网络评估状态价值,策略网络选择动作,通过TD误差和策略梯度分别更新两个网络。文中还给出了倒立摆的代码实现,包括策略网络结构、REINFORCE算法流程和训练过程。这些方法在强化学习中通过优化策略参数来最大化期望回报,适用于离散和连续动作空间的问题。原创 2025-08-18 00:25:01 · 1078 阅读 · 0 评论 -
王树森深度强化学习DRL(一)RL基本概念+价值学习
本文介绍了深度强化学习(DRL)的基本概念和实践应用。主要内容包括:1)基本概念:详细解释了状态、动作、奖励等强化学习核心要素;2)实践案例:展示了倒立杆和悬崖漫步两个经典环境的实现;3)DQN算法:深入讲解了Deep Q-Network的原理和实现细节,包括TD学习、经验回放等关键技术。文章还提供了完整的DQN实现代码,包含网络结构定义、训练流程和环境交互等模块,并通过倒立杆实验验证了算法的有效性。该教程系统性强,从理论到实践逐步深入,为学习深度强化学习提供了清晰的路径。原创 2025-08-17 14:11:25 · 1374 阅读 · 0 评论