机器学习与神经网络:原理、方法与应用
立即解锁
发布时间: 2025-08-29 11:44:56 阅读量: 18 订阅数: 40 AIGC 


人工智能与认知建模
### 机器学习与神经网络:原理、方法与应用
#### 1. 强化学习基础
强化学习是机器学习中一种重要的学习方式,其最简单的形式体现在学习自动机中。目前,基于反馈信号的奖励/惩罚状态,已经设计出了Q学习和时间差分学习等方法。
##### 1.1 学习自动机
学习自动机是最常见的强化学习方案之一。其学习机制包括学习自动机和环境两个模块。学习周期始于环境产生刺激,自动机接收到刺激后向环境生成响应,环境接收并评估响应,然后向自动机提供新的刺激。学习者会根据自动机的上一次响应和当前输入(刺激)自动调整其参数。
下面是学习自动机的学习流程:
```mermaid
graph LR
A[环境产生刺激] --> B[自动机接收刺激]
B --> C[自动机生成响应]
C --> D[环境接收并评估响应]
D --> E[环境提供新刺激]
E --> F[学习者调整参数]
```
以NIM游戏为例,该游戏有三组代币放在棋盘上,需要两名玩家参与。每个玩家轮流至少移除一个代币,但不能从超过一行中获取代币,移除最后一个代币的玩家为输家。当计算机与人类玩家进行游戏时,计算机会记录其在游戏中各回合选择的移动,并将其记录在一个矩阵中。矩阵的(i, j)元素表示计算机在回合中从第j状态转变到第i状态的成功概率,且每列元素之和为1。游戏结束后,计算机会根据奖励 - 惩罚机制调整矩阵元素。如果计算机获胜,对应其所有移动的元素增加δ,每列其余元素平均减少;如果计算机失败,对应其移动的元素减少δ,每列其余元素平均增加,以保持列和为1。经过大量试验后,矩阵变得不变,计算机在回合中会选择给定列中概率最高的状态。
##### 1.2 自适应动态规划
强化学习假设智能体从环境接收响应,但只能在其活动结束(即终端状态)时确定其状态(奖励/惩罚)。智能体最初处于状态S0,执行动作a0后移动到新状态S1,可表示为$S0 \xrightarrow{a0} S1$。智能体的奖励可以用效用函数表示。
智能体在强化学习中可以是被动或主动的。被动学习者试图通过处于不同状态来学习效用,而主动学习者可以根据所学知识推断未知状态的效用。
计算状态效用值的一种简单方法是:假设已知起始状态和目标状态,智能体从S1通过S2到达目标S7,重复实验100次,若S2被访问5次,则S2的效用值为5/100 = 0.05。同时假设智能体以无偏概率从一个状态移动到其相邻状态。
在自适应动态规划中,状态i的效用U(i)通过以下公式计算:
$U(i) = R(i) + \sum_{\forall j} M_{ij} U(j)$
其中,R(i)是处于状态i的奖励,$M_{ij}$是从状态i转移到状态j的概率。在自适应动态规划中,假设智能体是被动的,不追求最大化$\sum M_{ij} U(j)$项。对于小型随机系统,可以通过求解所有状态的效用方程来评估U(i);但当状态空间较大时,计算变得困难。
#### 2. 其他强化学习方法
##### 2.1 时间差分学习
为避免求解如自适应动态规划中的约束方程,采用以下公式计算U(i):
$U(i) \leftarrow U(i) + \alpha [ R(i) + (U(j) – U(i) ]$
其中,α是学习率,通常设置在[0, 1]范围内。由于考虑了效用的时间差异,这种学习方式被称为时间差分(TD)学习。虽然当从状态j到状态i发生罕见转移时,U(j) - U(i)可能过大,导致U(i)增大,但U(i)的平均值变化不大。
##### 2.2 主动学习
对于被动学习者,矩阵M是常量矩阵;而对于主动学习者,M是可变矩阵。因此,效用方程重新定义为:
$U(i) = R(i) + Max_a \sum_{\forall j} M_{ij}^a U(j)$
其中,$M_{ij}^a$表示在状态i执行动作‘a’到达状态j的概率。智能体将选择使$M_{ij}^a$最大的动作a,从而使U(i)最大。
##### 2.3 Q学习
在Q学习中,使用q值而非效用值。Q(a, i)表示在状态i执行动作a的Q值,效用值和Q值的关系为:
$U(i) = max_a Q(a, i)$
可以构建一个约束方程,当Q值正确时,该方程在平衡状态下成立:
$Q(a, i) = R(i) + \sum M_{ij}^a.max_{
0
0
复制全文
相关推荐










