
强化学习
文章平均质量分 78
北极与幽蓝
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
星际争霸相关论文阅读笔记
Modular Architecture for StarCraft II with Deep Reinforcement Learning (2018, University of California, Berkeley)作者相信DRL与人类知识的结合能有效降低问题复杂度,所以为星际AI提出了一个模块化架构,由多个模块分担决策责任,每个模块根据其负责问题的特性选用DRL或人工规则等方法来控制游戏的一个方面,例如建造顺序、工人管理、侦测。除了多个决策模块,还有一个中央scheduler检查所有模块提出原创 2021-10-20 21:31:19 · 863 阅读 · 0 评论 -
Real World Games Look Like Spinning Tops (DeepMind NIPS2020) 论文阅读记录
博弈论被用来描述和分析很多策略交互,包括Go,StarCraft等现实游戏。了解这些游戏的共同结构有助于理解特定方法有效的原因及其局限。论文研究的就是现实游戏的几何结构。在论文提出的Game of Skill假说中,策略显示出类似陀螺的几何结构。纵轴表示transitive strength,横轴表示non-transitive dimension也就是在纵轴当前所处的transitive strength的number of cycles。论文专注于两方面:第一,从理论和实验上研究Games原创 2021-10-20 17:40:46 · 1471 阅读 · 0 评论 -
强化学习算法实现小结
Q learning主要就是选择动作和更新Q表两个函数。选择动作就是选Q表中当前状态Q值最大的动作,用np.argmax就能返回值最大元素的下标。Q表使用defaultdict字典类型建立,一级索引state得到该状态下所有动作的Q值,二级索引action得到该状态该动作的Q值。from collections import defaultdictself.Q_table = defaultdict(lambda: np.zeros(self.action_dim)) Q表的更新:Q原创 2021-09-12 20:18:50 · 1528 阅读 · 0 评论 -
PPO近端策略优化算法概述
Policy Gradient算法存在两个问题,一是蒙特卡罗只能回合更新,二是on-policy采集的数据只能使用一次。对于第一个更新慢的问题,改用时序差分方法,引入critic网络估计V值,就能实现单步更新。对于第二个数据利用率低的问题,引入重要性采样,就能用一个不同于当前策略的固定策略去采样很多的数据并反复利用。总的来说,PPO(Proximal Policy Optimization)就是采用Actor-Critic架构和重要性采样对PG进行改进的算法,也是OpenAI默认的强化学习算法。原创 2021-09-12 11:56:39 · 2793 阅读 · 0 评论 -
DDPG深度确定性策略梯度算法概述
DDPG(Deep Deterministic Policy Gradient)是连续控制领域的经典强化学习算法,是结合PG和DQN的一种off-policy方法。可以看作是DQN的改进,在DQN的Q网络基础上引入Actor网络预测一个使Q值最大的动作值,从而能够应对连续动作空间,且使用了DQN中的目标网络和经验复现技巧。Deep指深度网络,Deterministic指确定性策略也就是Actor输出的是一个动作值而不是动作概率分布,虽然叫Policy Gradient但却是AC架构。原创 2021-09-11 19:56:05 · 1836 阅读 · 0 评论 -
First return, then explore论文阅读
强化学习志在通过奖励函数使算法能自主学习解决复杂序列决策问题,但在许多实际问题中奖励函数的设计非常困难。过于稀疏的奖励使智能体难以探索到有效路径、学不到东西,人为塑造较为密集的奖励又可能误导智能体、学到违背初衷的东西。所以需要能更好应对奖励的稀疏性(sparsity)和误导性(deception)的办法。论文没有探讨奖励函数的设计,而是着眼于如何进行有效探索,因为论文认为对状态空间充足的探索能够发现稀疏的奖励并避开具有误导性的局部最优。为了应对阻碍有效探索的两个问题detachment(算法忘记了如何到原创 2021-09-06 23:14:47 · 568 阅读 · 0 评论 -
DQN-FlappyBird项目学习
博客:https://yanpanlau.github.io/2016/07/10/FlappyBird-Keras.html代码:https://github.com/yanpanlau/Keras-FlappyBird一、代码说明flappy_bird_utils.py主要加载游戏需要的图像音频等文件,wrapped_flappy_bird.py主要提供GameState类能接收动作返回更新的游戏状态,qlearn.py主要接收图像输入、图像预处理、卷积神经网络选择动作、使用DQN训练网络(原创 2021-07-26 16:12:26 · 853 阅读 · 0 评论