机器学习与深度学习:从基础到复杂关系的探索
立即解锁
发布时间: 2025-08-30 00:48:19 阅读量: 12 订阅数: 40 AIGC 

### 机器学习与深度学习:从基础到复杂关系的探索
在机器学习领域,优化模型参数以找到最佳解决方案是核心任务之一。同时,对于复杂问题,简单的线性模型往往力不从心,深度学习的出现为解决这类问题提供了新的途径。
#### 1. 模型优化与评估
在机器学习中,优化的目标是找到最佳的参数值,使模型能够准确地对数据进行分类和预测。随机梯度下降是常用的优化方法,但在计算负梯度时,若仅针对小批量数据,会导致负梯度随机偏离所有训练数据的“正确”负梯度,使最小化路径出现强烈的随机波动。不过,该方法仍能接近最优解。
##### 1.1 应用模型到新数据
当模型的参数向量通过优化调整,以最大化训练数据中观察到的类别的预测概率后,就可以将模型应用于新的输入。具体操作步骤如下:
1. 使用经过训练优化的参数向量。
2. 对输入进行一次模型预测,计算各类别的概率向量。
3. 选择概率最高的类别作为输出。
##### 1.2 测试集上的准确性检查
为了评估模型的质量,需要计算分类的准确性。准确性的计算方法是:正确分类的样本数据数量除以所有分类的样本数据数量。但为了确保模型具有泛化能力,即能够正确分配训练期间未使用的新输入,不能在训练数据上计算准确性,而应在未用于训练的数据上进行计算。通常的做法是将可用的标注数据随机分为两个子集:训练集和测试集,一般测试集包含约20%的数据样本。
以MNIST数据为例,在优化的每个周期后,训练集和测试集的准确性变化情况如下:开始时,准确性迅速增加,随后振荡上升,最终训练集的准确性约为0.924,即每100个数字中,略多于7个被错误分类。由于小批量梯度下降导致梯度随机偏差,所以会出现振荡。而且,测试集的准确性明显低于训练集。在笔记本电脑上进行计算,该方法所需时间不到10秒。
##### 1.3 不同规模类别的精确率和召回率
在某些情况下,准确性可能是一个具有误导性的指标。例如,在一个只有两个类别的应用中,第二类仅占测试示例的1%,如果模型将所有测试示例都分配到第一类,那么它将达到99%的准确性,但实际上这个分类模型是不可用的。
因此,为每个类别定义了两个额外的质量指标:类k的精确率和类k的召回率,类k的F值是精确率和召回率的调和平均值。具体定义如下表所示:
| 指标 | 定义 |
| ---- | ---- |
| 准确率 | 正确分类的测试示例数量 / 所有测试示例数量 |
| 精确率 | 正确分配到类的所有测试示例数量 / 分配到类的所有测试示例数量 |
| 召回率 | 正确分配到类的所有测试示例数量 / 属于类的所有测试示例数量 |
| F值 | 2 * (精确率 * 召回率) / (精确率 + 召回率) |
精确率和召回率的重要程度取决于具体应用。如果要尽可能识别出类的潜在训练示例,召回率应该较高;如果要确保分配到类的准确性,精确率应该较高。许多分类器可以调整精确率和召回率的相对权重。
下面是一个简单的mermaid流程图,展示了模型评估的基本流程:
```mermaid
graph LR
A[获取标注数据] --> B[随机划分训练集和测试集]
B --> C[在训练集上训练模型]
C --> D[在测试集上评估模型]
D --> E[计算准确率、精确率、召回率和F值]
```
#### 2. 深度学习解决复杂问题
虽然逻辑回归模型在许多情况下表现良好,但对于一些复杂问题,它无法找到令人满意的解决方案。例如,在处理XOR问题时,逻辑回归模型就显得力不从心。
##### 2.1 XOR问题
XOR问题是一个二维输入向量的分类问题,输出概率需要以复杂的方式变化。当输入特征的组合效应影响分类时,这种现象称为统计交互。逻辑回归模型本质上是一个仿射变换,只能产生类之间的直线分离超平面,因此无法解决需要曲线分离超平面的分类问题。这一问题在早期神经网络研究中被指出,导致该领域的研究陷入停滞。
##### 2.2 非线性层创建曲线分离平面
为了解决复杂问题,Rumelhar
0
0
复制全文
相关推荐









