1、强化学习基础概念(Reinforce learning)

Basic Concepts(基本概念)

A grid-world example (网格世界示例)

  • accessible : 可到达的
  • forbidden : 禁止到达或者说是进去会受到惩罚的
  • target : 目标地址
  • boundary : 边界

State

就是对应一个agent的一个状态。此处指的就是不同网格的一个位置

state space: 位置集合

Action

在state位置的可以进行不同操作,这里指的是可以再一个位置(例如s1)可以进行的不同方向的移动

注意a5是原地移动

State Transition(状态转移、过渡)

也就是从一个状态变为另一个状态(这里指的是位置)

forbidden area: 我们这里处理的情况是禁止区域也是可以进去的只是进去后会受到惩罚(扣分 -1),因为我们只能可以处理更多的区域,而不是不让其进去,更有一般性,和更多的复杂性

两种情况

  • 禁止进去
  • 不禁止进去,只是进去会受到惩罚

数学表达State transition(条件概率)

  • 解释: s1 执行了a2操作,到达s2的概率是1
  • s1 执行 a2操作,到达非s2的概率是0

Policy

我们agent 在一个state执行什么action。这里也就是这个位置我们要执行那个移动操作

Policy的数学表达(条件概率)

deterministic policy(确定性策略)

这里给出的是s1此处的policy,其中的π(在强化学习中指的就是策略),也就是也给条件概率:制定了任何一个状态(state)下的去执行任意一个行为(action)的概率 。而且针对一个状态的所有action的概率之后应该是1。 (这里是我们指定了一个策略,这个策略就是让s1百分百的去执行a1行为(往右走))->这里是一个确定性的policy(deterministic policy)

我们s1...s9都有对应的策略

stochastic policies(随机策略)

这里对应s1是一个不确定策略,而s5则是一个确定性策略了

如何实现这个随机策略: 也就是取0到1之间的随机数,然后小于0.5则执行a1,大于0.5则执行a3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值