阶段一:强化学习基础奠基(1-2周)
学习目标:掌握RL核心概念与环境交互能力
核心概念掌握:
- Markov决策过程(MDP)
- 贝尔曼方程与最优性原则
- 探索与利用的平衡策略
- 价值函数(V函数与Q函数)
这些概念是强化学习(Reinforcement Learning, RL)最核心的理论基石。理解它们对于掌握RL至关重要。我们来逐一拆解,尽量用通俗的语言和例子说明:
1. Markov决策过程(Markov Decision Process, MDP)
- 它是什么? MDP是描述强化学习问题最基础、最标准的数学模型框架。它提供了一个形式化的工具,用来刻画一个智能体(Agent)如何在一个环境(Environment) 中进行序贯决策(Sequential Decision Making) 以达到某个长期目标。
- 核心要素:
- 状态(State, s s s): 环境在特定时刻的描述。例如:棋盘上所有棋子的位置(围棋)、机器人的位置和速度、游戏画面像素。
- 动作(Action, a a a): 智能体在某个状态下可以采取的行为。例如:移动棋子、给机器人轮子施加力、按游戏手柄按钮。
- 状态转移概率(Transition Probability, P ( s ′ ∣ s , a ) P(s' | s, a) P(s′∣s,a)): 在状态 s s s 执行动作 a a a 后,环境转移到下一个状态 s ′ s' s′ 的概率。这体现了环境的不确定性。例如:机器人向前走,但由于地面打滑,有80%概率成功前进(状态s’),20%概率原地不动(状态s’不变)。
- 奖励函数(Reward Function, R ( s , a , s ′ ) R(s, a, s') R(s,a,s′)): 智能体在状态 s s s 执行动作 a a a 后到达状态 s ′ s' s′ 时,环境给予智能体的即时反馈信号(一个标量数值)。奖励定义了目标。例如:吃豆人吃到豆子得+10分,被幽灵抓住扣-100分,其他时刻每走一步扣-1分(鼓励快速吃豆)。
- 折扣因子(Discount Factor, γ γ γ): 一个介于0和1之间的数(通常接近1,如0.9或0.99)。它用来衡量未来奖励相对于即时奖励的价值。 γ γ γ 越小,智能体越“短视”(更看重眼前利益); γ γ γ 越大,智能体越“有远见”(更看重长期回报)。
- Markov性质(关键!): MDP的核心假设是“未来只取决于现在,与过去无关”。数学表达为: P ( s t + 1 ∣ s t , a t , s t − 1 , a t − 1 , . . . , s 0 ) = P ( s t + 1 ∣ s t , a t ) P(s_{t+1} | s_t, a_t, s_{t-1}, a_{t-1}, ..., s_0) = P(s_{t+1} | s_t, a_t) P(st+1∣st,at,st−1,at−1,...,s0)=P(st+1∣st,at)。这意味着状态 s t s_t st 已经完全捕获了决定未来状态和奖励所需的所有历史信息。
- 目标: 智能体的目标是找到一个策略(Policy, π ( a ∣ s ) π(a|s) π(a∣s))(即在每个状态下选择每个动作的概率分布),使得从某个初始状态开始,长期累积的折扣奖励期望值最大化。这个累积奖励称为回报(Return)。
2. 贝尔曼方程(Bellman Equation)与最优性原则(Principle of Optimality)
- 它们是什么? 贝尔曼方程是价值函数(Value Function)必须满足的递归关系式。它是RL中几乎所有高效算法(如值迭代、策略迭代、Q-learning、SARSA、DQN)的理论基础。最优性原则是贝尔曼方程成立的哲学基础。
- 最优性原则(Principle of Optimality):
- 核心思想: “一个最优策略具有这样的性质:无论初始状态和初始决策是什么,剩余的决策对于由第一个决策所产生的状态来说,必须构成一个最优策略。” (Richard Bellman)
- 通俗解释: 如果你选择了一条从A到C的最优路径(A->B->C),那么从这条路径上的任意中间点B出发,到达终点C的路径(B->C)也必须是从B到C的最优路径。整体最优蕴含局部最优。
- 意义: 这个原则允许我们采用动态规划(Dynamic Programming) 的方法来解决MDP问题:将复杂的大问题(找到从起点到终点的最优策略)分解为更小的、重叠的子问题(找到从每个可能状态到终点的最优子策略),并通过递归地解决这些子问题来构建全局最优解。
- 贝尔曼方程(Bellman Equation):
- 作用: 它形式化地表达了最优性原则对价值函数的影响。它建立了当前状态的价值与其所有可能后继状态的价值之间的关系。
- 状态价值函数的贝尔曼方程 (For
V
π
(
s
)
V^π(s)
Vπ(s)):
V π ( s ) = Σ a π ( a ∣ s ) ∗ Σ s ′ P ( s ′ ∣ s , a ) ∗ [ R ( s , a , s ′ ) + γ ∗ V π ( s ′ ) ] V^π(s) = Σ_{a} π(a|s) * Σ_{s'} P(s'|s, a) * [ R(s, a, s') + γ * V^π(s') ] Vπ(s)=Σaπ(a∣s)∗Σs′P(s′∣s,a)∗[R(s,a,s′)+γ∗Vπ(s′)]- 解释: 状态 s s s 在策略 π π π 下的价值 V π ( s ) V^π(s) Vπ(s),等于在该策略下选择所有可能动作 a a a 的概率 π ( a ∣ s ) π(a|s) π(a∣s) 乘以:执行 a a a 后转移到所有可能新状态 s ′ s' s′ 的概率 P ( s ′ ∣ s , a ) P(s'|s, a) P(s′∣s,a) 乘以:到达 s ′ s' s′ 时获得的即时奖励 R ( s , a , s ′ ) R(s, a, s') R(s,a,s′) 加上 s ′ s' s′ 本身的价值 V π ( s ′ ) V^π(s') Vπ(s′) 乘以折扣因子 γ γ γ 后的总和。
- 核心: 当前状态的价值 = 即时奖励期望 + 折扣后的下一个状态价值期望。
- 动作价值函数的贝尔曼方程 (For
Q
π
(
s
,
a
)
Q^π(s, a)
Qπ(s,a)):
Q π ( s , a ) = Σ s ′ P ( s ′ ∣ s , a ) ∗ [ R ( s , a , s ′ ) + γ ∗ Σ a ′ π ( a ′ ∣ s ′ ) ∗ Q π ( s ′ , a ′ ) ] Q^π(s, a) = Σ_{s'} P(s'|s, a) * [ R(s, a, s') + γ * Σ_{a'} π(a'|s') * Q^π(s', a') ] Qπ(s,a)=Σs′P(s′∣s,a)∗[R(s,a,s′)+γ∗Σa′π(a′∣s′)∗Qπ(s′,a′)]- 解释: 在状态 s s s 下执行动作 a a a 后在策略 π π π 下的价值 Q π ( s , a ) Q^π(s, a) Qπ(s,a),等于执行 a a a 后转移到所有可能新状态 s ′ s' s′ 的概率 P ( s ′ ∣ s , a ) P(s'|s, a) P(s′∣s,a) 乘以:到达 s ′ s' s′ 时获得的即时奖励 R ( s , a , s ′ ) R(s, a, s') R(s,a,s′) 加上 s ′ s' s′ 状态下,根据策略 π π π 选择所有可能后续动作 a ′ a' a′ 的概率 π ( a ′ ∣ s ′ ) π(a'|s') π(a′∣s′) 乘以 s ′ s' s′ 状态下执行 a ′ a' a′ 的价值 Q π ( s ′ , a ′ ) Q^π(s', a') Qπ(s′,a′) 乘以折扣因子 γ γ γ 后的总和。
- 核心: 当前状态-动作对的价值 = 即时奖励期望 + 折扣后的下一个状态-动作对价值期望(按策略加权)。
- 贝尔曼最优方程 (Bellman Optimality Equation): 这是贝尔曼方程的特殊形式,描述的是最优策略 π ∗ π* π∗ 对应的最优价值函数 V ∗ V* V∗ 和 Q ∗ Q* Q∗ 所满足的方程。它去掉了对策略 π π π 的依赖,直接取能最大化未来价值的动作。
- 意义: 贝尔曼方程是计算、估计和学习价值函数的核心工具。RL算法通过不断地应用(或近似应用)贝尔曼方程来更新价值函数的估计值,最终找到最优策略。
3. 探索与利用的平衡策略(Exploration-Exploitation Trade-off)
- 它是什么? 这是RL智能体在学习过程中面临的一个根本性两难困境。
- 利用(Exploitation): 智能体根据当前已知的最佳知识(例如,当前估计价值最高的动作)来选择动作,以最大化当前步骤的期望回报。即“吃老本”。
- 探索(Exploration): 智能体故意尝试一些非当前最优的(甚至可能是未知的)动作,以收集更多关于环境的信息(例如,这个动作在其他状态效果如何?会不会有更高的长期回报?)。即“开荒拓土”。
- 为什么需要平衡?
- 只利用不探索: 智能体可能很快收敛到一个局部最优策略,但永远发现不了真正更好的全局最优策略。例如,一个推荐系统只推荐用户过去点过的内容,永远不会发现用户可能更感兴趣的新类型。
- 只探索不利用: 智能体不停地尝试新东西,无法积累经验稳定地获得高回报,表现会很差。就像一个人不停换工作试错,却从不深耕一个领域赚钱。
- 如何平衡? 需要在获取信息(探索) 和最大化回报(利用) 之间找到最佳权衡点。没有一劳永逸的解决方案,但有多种策略:
- ε-贪心(ε-Greedy): 最常用。以概率 1 − ε 1-ε 1−ε 选择当前估计最优动作(利用),以概率 ε ε ε 随机选择一个动作(探索)。
- 乐观初始值(Optimistic Initial Values): 将所有动作的初始价值估计设置得非常高(乐观)。在早期,任何动作的实际奖励通常低于估计值,促使智能体尝试所有动作(探索)。随着学习进行,估计值逐渐收敛到真实值,智能体转向利用。
- 上置信界算法(Upper Confidence Bound, UCB): 在选择动作时,不仅考虑动作价值的估计均值,还考虑其不确定性(尝试次数少则不确定性高)。倾向于选择“均值高 + 不确定性高”的动作,平衡了利用(高均值)和探索(高不确定性)。
- 汤普森采样(Thompson Sampling): 一种基于贝叶斯思想的概率方法。为每个动作维护一个奖励分布的后验信念,每一步根据这个后验分布采样一个“可能的世界”,然后在这个采样的世界里选择最优动作。
- 意义: 探索-利用困境是RL区别于监督学习的关键特征之一。设计有效的探索策略是RL算法成功的关键,尤其是在状态空间巨大、奖励稀疏或环境复杂的情况下。
4. 价值函数(Value Function): V函数与Q函数
价值函数是评估状态或状态-动作对好坏的核心工具,是策略 π π π 的长期期望回报的度量。
-
状态价值函数(State-Value Function, V π ( s ) V^π(s) Vπ(s)):
- 定义: 表示在状态 s s s 下,遵循策略 π π π 所能获得的期望回报(从 s s s 开始到未来的累积折扣奖励)。 V π ( s ) = E π [ G t ∣ S t = s ] V^π(s) = E_π[G_t | S_t = s] Vπ(s)=Eπ[Gt∣St=s] ( G t G_t Gt 是从时刻 t t t 开始的回报)。
- 意义: 回答“处于状态 s s s 并遵循策略 π π π 有多好?” 它衡量的是状态本身在给定策略下的长期价值。
- 目标: 寻找最优策略 π ∗ π* π∗,使得所有状态 s s s 的 V π ( s ) V^π(s) Vπ(s) 达到最大。这个最大值函数称为最优状态价值函数 V ∗ ( s ) V*(s) V∗(s)。
-
动作价值函数(Action-Value Function / Q函数, Q π ( s , a ) Q^π(s, a) Qπ(s,a)):
- 定义: 表示在状态 s s s 下,执行动作 a a a,然后遵循策略 π π π 所能获得的期望回报。 Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^π(s, a) = E_π[G_t | S_t = s, A_t = a] Qπ(s,a)=Eπ[Gt∣St=s,At=a]。
- 意义: 回答“在状态 s s s 下执行动作 a a a 然后遵循策略 π π π 有多好?” 它衡量的是在特定状态下选择特定动作并在之后遵循给定策略的长期价值。
- 关键优势: 一旦我们知道了最优的 Q ∗ Q* Q∗ 函数,找到最优策略变得极其简单:在任意状态 s s s,只需选择使 Q ∗ ( s , a ) Q*(s, a) Q∗(s,a) 最大的动作 a a a 即可! π ∗ ( s ) = a r g m a x a Q ∗ ( s , a ) π*(s) = argmax_{a} Q*(s, a) π∗(s)=argmaxaQ∗(s,a)。这使得Q函数成为很多RL算法(如Q-learning, DQN)的直接学习目标。
- 目标: 寻找最优策略 π ∗ π* π∗,使得所有状态 s s s 和动作 a a a 的 Q π ( s , a ) Q^π(s, a) Qπ(s,a) 达到最大。这个最大值函数称为最优动作价值函数 Q ∗ ( s , a ) Q*(s, a) Q∗(s,a)。
-
V函数与Q函数的关系:
- 在给定策略
π
π
π 下,状态
s
s
s 的价值是其所有可能动作价值的加权平均(权重是策略
π
(
a
∣
s
)
π(a|s)
π(a∣s) 给出的选择该动作的概率):
V π ( s ) = Σ a π ( a ∣ s ) ∗ Q π ( s , a ) V^π(s) = Σ_{a} π(a|s) * Q^π(s, a) Vπ(s)=Σaπ(a∣s)∗Qπ(s,a) - 在最优策略
π
∗
π*
π∗ 下,状态
s
s
s 的最优价值等于在该状态下选择最优动作所能获得的最优动作价值:
V ∗ ( s ) = m a x a Q ∗ ( s , a ) V*(s) = max_{a} Q*(s, a) V∗(s)=maxaQ∗(s,a) - Q函数可以通过V函数(或后继状态的Q函数)和贝尔曼方程来计算,反之亦然。它们是紧密相连、相互定义的。
- 在给定策略
π
π
π 下,状态
s
s
s 的价值是其所有可能动作价值的加权平均(权重是策略
π
(
a
∣
s
)
π(a|s)
π(a∣s) 给出的选择该动作的概率):
总结与联系:
- MDP 定义了RL问题的框架(状态、动作、转移、奖励、折扣)。
- 智能体的目标是找到最大化回报的策略。
- 价值函数(V/Q) 是衡量策略好坏、状态/动作好坏的核心指标。
- 贝尔曼方程 描述了价值函数内在的递归关系,是计算和学习价值函数的理论基础,其根源在于最优性原则(整体最优蕴含局部最优)。
- 在学习最优价值函数/策略的过程中,智能体必须面对探索-利用困境,需要采用特定的策略来平衡两者(如ε-贪心、UCB等)。
理解这些概念及其相互关系,是掌握强化学习算法(如Q-learning, SARSA, Policy Gradients, Actor-Critic, DQN, PPO等)的绝对前提。它们共同构成了RL这座大厦的地基。在学习具体算法时,你会不断看到这些基础概念是如何被应用和实现的。