【免费】深度学习500问-Tan-13第十三章优化算法1资源-CSDN下载

需积分: 0 25 浏览量更新于2022-08-03 收藏 1.03MB PDF 举报

在深度学习领域，优化算法起着至关重要的作用，它们决定了模型训练的效率和效果。第十三章"优化算法1"中，主要讨论了CPU与GPU的区别以及如何应对训练样本少的问题，同时也提出了某些不适合使用深度学习的样本集类型。 CPU和GPU在设计和功能上有显著差异。CPU，全称为中央处理器，是计算机的核心，负责解释指令和处理数据。它具有复杂的缓存层次结构，如L1、L2、L3甚至L4缓存，以提高单任务处理速度，确保实时响应。然而，这使得CPU在晶体管和能耗上付出较大代价。相比之下，GPU（图形处理器）专为并行处理设计，拥有更简单的缓存结构，主要用于图形处理和浮点运算，其优势在于高吞吐量，而非低延迟。GPU可以同时处理大量相似的任务，适合于矩阵运算和批量处理，如深度学习中的神经网络计算。在训练样本少的情况下，深度学习依然可以发挥作用。一种策略是迁移学习，即利用在大型数据集（如ImageNet）上预训练的模型作为基础，然后在目标任务的少量数据上进行微调。另一种方法是只更新模型的顶层参数，保持底层参数不变，因为底层参数通常学习到通用的特征，对多种任务都有用。可以直接提取预训练模型的高层特征作为输入，替代手工设计的特征，减少对大量训练数据的依赖。然而，并非所有数据集都适合深度学习。数据集过小或者缺乏局部相关性是两个主要问题。当数据样本不足时，深度学习的复杂性和需要大量数据的特性可能导致过拟合，简单或传统的机器学习算法可能更有效。此外，如果数据集中的元素之间没有明显的局部关系，例如在某些非结构化数据中，深度学习的优势难以体现。例如，随机排列的数据点可能无法形成有意义的模式，深度学习在这种情况下可能表现不佳。理解和选择合适的硬件平台（CPU或GPU）、应对数据稀缺问题以及识别深度学习适用的数据集，是深度学习实践中需要关注的关键点。优化算法的选择和调整也是提升模型性能的重要环节，需要根据具体问题和资源条件进行综合考虑。

314

第十三章优化算法

13.1 CPU

和

GPU

的区别？

概念：

CPU 全称是 central processing unit，CPU 是一块超大规模的集成电路，是一台计算机的运

算和控制核心，它的主要功能是解释计算机指令和处理计算机软件中的数据。

GPU 全称是 graphics processing unit，GPU 是将计算机系统，所需要的显示信息进行转换

的驱动，并向显示器提供扫描信号，控制显示器的正确显示，是连接显示器和个人电脑主板的

重要元件，是人机对话的重要设备之一。

缓存：

CPU 有大量的缓存结构，目前主流的 CPU 芯片上都有四级缓存，这些缓存结构消耗了大

量的晶体管，在运行的时候需要大量的电力。反观

GPU

的缓存就很简单，目前主流的

GPU

芯

片最多有两层缓存。CPU 消耗在晶体管上的空间和能耗，GPU 都可以用来做成 ALU 单元，也

因此 GPU 比 CPU 的效率要高一些。

响应方式：

对 CPU 来说，要求的是实时响应，对单任务的速度要求很高，所以就要用很多层缓存的

办法来保证单任务的速度。对 GPU 来说大家不关心第一个像素什么时候计算完成，而是都关

心最后一个像素什么时候计算出来，所以

GPU

就把所有的任务都排好，然后再批处理，这样

对缓存的要求就很低了。举个不恰当的例子，在点击 10 次鼠标的时候，CPU 要每一次点击都

要及时响应，而 GPU 会等第 10 次点击后，再一次性批处理响应。

浮点运算

CPU 除了负责浮点整形运算外，还有很多其他的指令集的负载，比如像多媒体解码，硬

件解码等，所以 CPU 是个多才多艺的东西，而 GPU 基本上就是只做浮点运算的，也正是因为

只做浮点运算，所以设计结构简单，也就可以做的更快。另外显卡的

GPU

和单纯为了跑浮点

高性能运算的 GPU 还是不太一样，显卡的 GPU 还要考虑配合图形输出显示等方面，而有些专

用 GPU 设备，就是一个 PCI 卡上面有一个性能很强的浮点运算 GPU，没有显示输出的，这样

的

GPU

就是为了加快某些程序的浮点计算能力。

CPU

注重的是单线程的性能，也就是延迟，

对于 CPU 来说，要保证指令流不中断，所以 CPU 需要消耗更多的晶体管和能耗用在控制部分，

于是 CPU 分配在浮点计算的功耗就会变少。GPU 注重的是吞吐量，单指令能驱动更多的计算，

所以相比较而言

GPU

消耗在控制部分的能耗就比较少，因此也就可以把电省下来的资源给浮

点计算使用。

应用方向：

像操作系统这一类应用，需要快速响应实时信息，需要针对延迟优化，所以晶体管数量和

315

能耗都需要用在分支预测，乱序执行上，低延迟缓存等控制部分，而这都是 CPU 的所擅长的。

对于像矩阵一类的运算，具有极高的可预测性和大量相似运算的，这种高延迟，高吞吐的架构

运算，就非常适合

GPU

。

浅显解释：

一块 CPU 相当于一个数学教授，一块 GPU 相当于 100 个小学生。

第一回合，四则运算，一百个题。教授拿到卷子一道道计算。

100

个小学生各拿一道题。

教授刚开始计算到第二题的时候，小学生就集体交卷了。

第二回合，高等函数，一百个题。当教授搞定后。一百个小学生可能还不知道该做些什么。

这两个回合就是

CPU

和

GPU

的区别了。

13.2 如何解决训练样本少的问题

要训练一个好的 CNN 模型，通常需要很多训练数据，尤其是模型结构比较复杂的时候，

比如

ImageNet

数据集上训练的模型。虽然深度学习在

ImageNet

上取得了巨大成功，但是一个

现实的问题是，很多应用的训练集是较小的，如何在这种情况下应用深度学习呢？有三种方法

可供读者参考。

（

）可以将

ImageNet

上训练得到的模型做为起点，利用目标训练集和反向传播对其进

行继续训练，将模型适应到特定的应用。ImageNet 起到预训练的作用。

（2）如果目标训练集不够大，也可以将低层的网络参数固定，沿用 ImageNet 上的训练集

结果，只对上层进行更新。这是因为底层的网络参数是最难更新的，而从

ImageNet

学习得到

的底层滤波器往往描述了各种不同的局部边缘和纹理信息，而这些滤波器对一般的图像有较好

的普适性。

（

）直接采用

ImageNet

上训练得到的模型，把最高的隐含层的输出作为特征表达，代

替常用的手工设计的特征。

13.3

什么样的样本集不适合用深度学习

（

）数据集太小，数据样本不足时，深度学习相对其它机器学习算法，没有明显优

势。

（2）数据集没有局部相关特性，目前深度学习表现比较好的领域主要是图像／语音

／自然语言处理等领域，这些领域的一个共性是局部相关性。图像中像素组成物体，语音

信号中音位组合成单词，文本数据中单词组合成句子，这些特征元素的组合一旦被打乱，

表示的含义同时也被改变。对于没有这样的局部相关性的数据集，不适于使用深度学习算

法进行处理。举个例子：预测一个人的健康状况，相关的参数会有年龄、职业、收入、家

庭状况等各种元素，将这些元素打乱，并不会影响相关的结果。

318

选择 fan_out, 因为在反向传播的时候，fan_out 就是神经元的输入个数；如果两者都考虑的话，

就选 average = (fan_in + fan_out) /2。对于 ReLU 激活函数来说，XavierFiller 初始化也是很适

合。关于该初始化方法，具体可以参考文章

、文章

，该方法假定激活函数是线性的。

msra 初始化

对于权值的分布：基于均值为 0，方差为( 2/输入的个数)的高斯分布；它特别适合 ReLU

激活函数，该方法主要是基于

Relu

函数提出的，推导过程类似于

xavier

。

双线性初始化（bilinear）

常用在反卷积神经网络里的权值初始化。

13.9

启发式优化算法中，如何避免陷入局部最优解？

启发式算法中，局部最优值的陷入无法避免。启发式，本质上是一种贪心策略，这也在客

观上决定了不符合贪心规则的更好（或者最优）解会错过。

简单来说，避免陷入局部最优就是两个字：随机。

具体实现手段上，可以根据所采用的启发式框架来灵活地加入随机性。比如遗传里面，可

以在交叉变异时，可以在控制人口策略中，也可以在选择父本母本样本时；禁忌里面，可以在

禁忌表的长度上体现，也可以在解禁策略中使用，等等。这些都要结合具体问题特定的算例集，

需要反复尝试摸索才行。参数的敏感性是一个问题，建议不要超过 3 个参数，参数越不敏感越

好。不同算例集用不同种子运行多次（100 次左右才有统计意义），统计平均性能即可。需注

意全局的随机重启通常来说不是一个好办法，因为等于主动放弃之前搜索结果，万不得已不要

用，或者就是不用。

三个原则应该把握：越随机越好；越不随机越好；二者平衡最好。

越随机越好

没有随机性，一定会陷入局部最优。为了获得更大的找到最优解的期望，算法中一定要有

足够的随机性。具体体现为鲁棒性较好，搜索时多样性较好。算法的每一步选择都可以考虑加

入随机性，但要控制好概率。比如，某个贪心策略下，是以概率

做某一动作，可以考虑将其

改为以概率 0.999 做之前的操作，以剩余概率做其他操作。具体参数设置需调试。

越不随机越好

随机性往往是对问题内在规律的一种妥协。即没有找到其内在规律，又不知道如何是好，

为了获得更好的多样性，逼不得已加入随机。因此，对给定问题的深入研究才是根本：分辨出

哪些时候，某个动作就是客观上能严格保证最优的——这点至关重要，直接决定了算法性能。

最好的算法一定是和问题结构紧密相连的，范范地套用某个启发式的框架不会有出色的性能。

当然，如果不是追求性能至上，而是考虑到开发效率实现成本这些额外因素，则另当别论。

二者平衡最好

通常情况下，做好第一点，可以略微改善算法性能；做好第二点，有希望给算法带来质的

剩余44页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源评论

陈后主

粉丝: 39

深度学习500问-Tan-13第十三章 优化算法1

第十三章_优化算法.pdf

深度学习500问

优化：优化算法

深度学习500问-Tan-16第十六章 NLP1

深度学习500问-Tan-03第三章 深度学习基础1

深度学习500问-Tan-10第十章 迁移学习1

深度学习500问-Tan-08第八章 图像分割1

深度学习500问-Tan-06第六章 循环神经网络（RNN）1

深度强化学习的调度策略优化算法

序贯最小优化算法(SMO)1

深度学习优化算法研究.pdf

粒子群优化算法（十三种）

深度学习500问-Tan-14第十四章 超参数调整1

深度学习500问-Tan-07第七章 目标检测1

深度学习500问-Tan-00目录1

深度学习500问-Tan-04第四章 经典网络1

深度学习500问-Tan-16参考文献1

深度学习数学基础之约束优化问题

深度学习500问资料

深度学习500问-Tan-15第十五章 正则化1

深度学习500问-Tan-05第五章 卷积神经网络（CNN）1

基于JavaScript的深度学习500问设计源码包

非线性优化算法及实现.pdf

深度学习500问，以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述

C-tan-chi-she-you-xi.rar_she

Activity

GWT应用开发精髓：从理论到实践

最新资源

深度学习500问-Tan-13第十三章优化算法1

深度学习500问-Tan-03第三章深度学习基础1

深度学习500问-Tan-10第十章迁移学习1

深度学习500问-Tan-08第八章图像分割1

深度学习500问-Tan-06第六章循环神经网络（RNN）1

深度学习500问-Tan-14第十四章超参数调整1

深度学习500问-Tan-07第七章目标检测1

深度学习500问-Tan-04第四章经典网络1

深度学习500问-Tan-15第十五章正则化1

深度学习500问-Tan-05第五章卷积神经网络（CNN）1