Basic Concepts(基本概念)
A grid-world example (网格世界示例)
- accessible : 可到达的
- forbidden : 禁止到达或者说是进去会受到惩罚的
- target : 目标地址
- boundary : 边界
State
就是对应一个agent的一个状态。此处指的就是不同网格的一个位置
state space: 位置集合
Action
在state位置的可以进行不同操作,这里指的是可以再一个位置(例如s1)可以进行的不同方向的移动
注意a5是原地移动
State Transition(状态转移、过渡)
也就是从一个状态变为另一个状态(这里指的是位置)
forbidden area: 我们这里处理的情况是禁止区域也是可以进去的只是进去后会受到惩罚(扣分 -1),因为我们只能可以处理更多的区域,而不是不让其进去,更有一般性,和更多的复杂性
两种情况
- 禁止进去
- 不禁止进去,只是进去会受到惩罚
数学表达State transition(条件概率)
- 解释: s1 执行了a2操作,到达s2的概率是1
- s1 执行 a2操作,到达非s2的概率是0
Policy
我们agent 在一个state执行什么action。这里也就是这个位置我们要执行那个移动操作
Policy的数学表达(条件概率)
deterministic policy(确定性策略)
这里给出的是s1此处的policy,其中的π(在强化学习中指的就是策略),也就是也给条件概率:制定了任何一个状态(state)下的去执行任意一个行为(action)的概率 。而且针对一个状态的所有action的概率之后应该是1。 (这里是我们指定了一个策略,这个策略就是让s1百分百的去执行a1行为(往右走))->这里是一个确定性的policy(deterministic policy)
我们s1...s9都有对应的策略
stochastic policies(随机策略)
这里对应s1是一个不确定策略,而s5则是一个确定性策略了