深度大数据分析:从理论到实践
立即解锁
发布时间: 2025-08-29 12:12:37 阅读量: 11 订阅数: 16 AIGC 

### 深度大数据分析:从理论到实践
#### 1. 梯度下降与随机梯度下降
在优化成本函数时,梯度下降是一种常用的方法。由于某个值的平方总是大于等于 0,所以某个相关值总是小于等于 0,这意味着成本 C 总是会下降,这正是梯度下降的预期行为。我们通过规则 $(w_i,b_i) = (w_i,b_i) - \cdots$ 来改变权重和偏置的值,以迭代的方式使用该规则,借助梯度下降算法达到最小成本值。
不过,使用梯度下降时,需要谨慎选择步长值。如果该值过大,下降过程可能会错过最小值;如果值过小,步长会很小,收敛将需要大量的时间和计算。
随着训练输入数量的增加,传统的梯度下降在计算上会变得非常耗时,学习时间也会增加。因此,在大多数实际场景中,会使用随机梯度下降。它是梯度下降的一种变体,随机选取少量输入,对这些少量输入的梯度求平均值,从而加快向最小成本的收敛速度。
#### 2. 反向传播
反向传播用于高效计算成本函数 C 的梯度。简单来说,其目标是计算成本 C 相对于权重和偏置的变化率。
假设在网络中对某个权重的值进行了一个小的改变 $\Delta w$,由于这个权重的变化,与之相连的神经元的激活值会发生相应的变化 $\Delta a$。这个变化会传播到输出层,最终影响成本函数的值。成本的变化 $\Delta C$ 与权重的变化 $\Delta w$ 之间存在一定的关系,通过一系列的推导可以得到反向传播的方程,该方程给出了成本 C 相对于网络中权重的变化率。
#### 3. 非线性激活函数
考虑两种特征空间,一种是输入特征可以用一条直线线性分离,即线性可分;另一种是特征空间不一致,无法用直线分离,需要非线性或二次方程来推导决策边界,而现实世界中的大多数场景属于后一种。
深度神经网络在输入层接收数据,在隐藏层对数据进行处理和数学映射,最后在输出层生成输出。为了让深度神经网络理解特征空间并准确建模以进行预测,需要非线性激活函数。如果所有神经元的激活函数都是线性的,那么深度神经网络就没有意义,因为各层之间的所有线性关系可以聚合为一个单一的线性函数,从而消除了对多个隐藏单元的需求。
常见的非线性激活函数有:
- **Sigmoid 函数**:呈 'S' 形,取值范围在 0 到 1 之间,数学形式为 $\cdots$。
- **Tanh 函数**:是 Sigmoid 函数的一种变体,取值范围从 -1 到 1,数学形式为 $\cdots$。
- **修正线性单元(RELU)**:对于任何负的 x 值输出为 0,当 x 为正时等于 x 的值,即 $\cdots$。
#### 4. Dropout 正则化
Dropout 是一种流行的正则化技术,用于防止过拟合。当深度神经网络由于样本数量有限而记住了所有训练数据时,它在处理新的测试数据时可能无法很好地泛化,从而导致过拟合。
在训练阶段,算法会从深度神经网络中选择要丢弃的节点(将激活值设置为 0)。每个 epoch 会根据预定义的概率选择不同的节点集合。例如,如果选择 0.2 的丢弃率,那么在每个 epoch 中,节点有 20% 的概率不参与学习过程。
通过丢弃节点,会在损失函数中添加一个惩罚项,防止模型通过学习神经元之间的激活值和相应连接权重的相互依赖关系来记忆数据。由于丢弃单元的激活值为 0,后续节点的值会降低,因此需要给参与训练过程的节点乘以一个因子 $1 - dropout\_rate$,这个过程称为反向 Dropout。
为了进一步优化 Dropout 过程,可以在同一个训练示例上多次应用随机消除不同节点的 Dropout,这有助于消除深度神经网络的记忆效应,进一步泛化训练模型。不过,测试表明,在 50% 的丢弃率下,收敛所需的迭代次数会翻倍,但过拟合区域会被消除。
#### 5. 数据准备管道
深度神经网络非常适合有历史数据集可用的监督学习问题。为了让深度神经网络达到最佳性能,需要仔细获取、转换、缩放、归一化、合并和拆分数据,这类似于在数据仓库或数据湖中借助 ETL(传统数据仓库的提取、转换和加载)和 ELTTT(现代数据湖的多次提取、加载和转换)管道构建数据管道。
我们会处理来自各种来源的结构化和非结构化格式的数据,为了在深度神经网络中使用这些数据,需要将其转换为数值表示,并以多维数组的形式提供。DataVec 是一个流行的 Apache 2.0 库,用于通用的机器学习操作,它支持许多数据源,涵盖了数据科学社区中常用的大多数类型。
DataVec 支持的数据源和类型如下表所示:
|数据源类型|说明|
| ---- | ---- |
|...|...|
DataVec API 有一些库,可以轻松将数据转换为神经网络能够理解的格式。其主要组件是向量化,因此该 API 被称为 DataVec。它将数据属性转换为数值格式,并根据特定用例的要求进行正则化。
在处理数据时,涉及到几个重要的概念:
- **InputFormat**:定义数据的结构语义,符合预定义的模式,并实现验证器进行验证。常见的输入格式包括 FileInputFormat(基于文件的格式,将文件视为独立且唯一的对象)、TextInputFormat(Hadoop MapReduce 框架的默认格式,适用于逗号分隔的数据结构)和 SequenceFileInputFormat(用于读取序列文件)。
- **InputSplit**:从 InputFormat 创建的对象,逻辑上表示数据,分割成记录,这些记录可以由 Hadoop 以分布式方式独立处理。
- **RecordReader**:读取 InputSplit 定义的记录,根据数据集的索引生成键值对,方便 Mapper 按顺序读取可用的数据块进行处理。
DataVec 还支持 OutputFormats,并且具有很大的互操作性。最常用的向量格式是 ARFF 和 SVMLight,该框架还提供了扩展功能
0
0
复制全文
相关推荐









