第一遍
阅读顺序
首先看abstract 和discuss
然后看重要的图和表
一些笔记
在AlexNet之前一般都是无监督学习,在AlexNet后开始流行有监督学习,直到Bert、GAN,开始流行无监督学习
在图片上走的很远,在nlp上也走了很远,在video上没有走的那么远
深度神经网络训练出来的向量,在语义空间里的表示特别好
第二遍
Introduction
正则来防止过拟合,但是最近说正则好像没有那么重要,更重要的是网络结构的设计
第三节讲的是我们怎么做一个更大的网络,第四节讲的是怎么样去处理过拟合
把很多技术放在一起得到了一个结果对别人是没有什么启发性的,因为这个东西过于复杂,过于难以复现。
从研究工作来说,工程上的细节是没有那么重要的
Dataset
直接在原始的pixel上做了
end-to-end神经网络直接帮你抽取特征
简单有效的东西是能够持久的
The Architecture
(1)激活函数
在标准网络中一般用tanh或者sigmoid,saturating nonlinearities
使用Relu是会效果会快一点
(2)用多个gpu来训练
这里是一些非常工程的细节,可以在机器学习的论文里暂时忽略掉
(3)正则化归一化
只要知道它是一个normalization的东西,并且可以避免饱和
(4)模型图
最后一张图片变成了了一个4096的向量,最后用了一个线性分类层去做连接,这个向量可以很好的抓住语义信息,这个向量变成了一个机器能看懂的东西
机器学习可以看作一个知识压缩的过程,这个是深度神经网络的精髓所在
这个图片的复杂点在于拆成了两个gpu来做,所以图示也分成了两块,把工程的复杂细节放到这里来讲,当时没有很关注这一块,现在又有点流行起来,分布训练
降低过拟合
数据增强
(1)空间上的抠图
(2)PCA在通道上做了一点变换,颜色会不一样
Dropout
很多个模型放在一起时很有用的,但是对深度神经网络比较贵
dropout可以做模型融合,但是后面的工作说dropout是一个正则的东西
dropout可以缓解overfitting的问题
模型训练
用SGD来训练
手动来调参
一些训练的技术细节,参数设置
实验
实验的效果是比较重要的
如果刚开始实验,不用特别关心细节
验证集是可以一直测用来调参,测试集只能测1-3次
在gpu1上学习到的模式是颜色无关的,在gpu2上学习到的模式是颜色相关的(提出了一个疑问)
在一些底层的神经元学到了一些局部信息,在上层的神经元学到了一些上层信息
第三遍
可以继续看下去,看一下引用的那些文章