【论文阅读】AlexNet阅读笔记

文章探讨了深度学习的历史,强调了AlexNet在从无监督到监督学习转变中的作用。讨论了如何通过网络架构设计和正则化防止过拟合。提到了数据增强、dropout等技术在减轻过拟合中的应用,以及使用GPU进行分布式训练的重要性。文章还指出,简单的有效方法往往更持久,深度神经网络的核心是知识压缩过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一遍

阅读顺序

首先看abstract 和discuss

然后看重要的图和表

一些笔记

在AlexNet之前一般都是无监督学习,在AlexNet后开始流行有监督学习,直到Bert、GAN,开始流行无监督学习

在图片上走的很远,在nlp上也走了很远,在video上没有走的那么远

深度神经网络训练出来的向量,在语义空间里的表示特别好

第二遍

Introduction

正则来防止过拟合,但是最近说正则好像没有那么重要,更重要的是网络结构的设计

第三节讲的是我们怎么做一个更大的网络,第四节讲的是怎么样去处理过拟合

把很多技术放在一起得到了一个结果对别人是没有什么启发性的,因为这个东西过于复杂,过于难以复现。

从研究工作来说,工程上的细节是没有那么重要的

Dataset

直接在原始的pixel上做了

end-to-end神经网络直接帮你抽取特征

简单有效的东西是能够持久的

The Architecture

(1)激活函数

在标准网络中一般用tanh或者sigmoid,saturating nonlinearities

使用Relu是会效果会快一点

(2)用多个gpu来训练

这里是一些非常工程的细节,可以在机器学习的论文里暂时忽略掉

(3)正则化归一化

只要知道它是一个normalization的东西,并且可以避免饱和

(4)模型图

最后一张图片变成了了一个4096的向量,最后用了一个线性分类层去做连接,这个向量可以很好的抓住语义信息,这个向量变成了一个机器能看懂的东西

机器学习可以看作一个知识压缩的过程,这个是深度神经网络的精髓所在

这个图片的复杂点在于拆成了两个gpu来做,所以图示也分成了两块,把工程的复杂细节放到这里来讲,当时没有很关注这一块,现在又有点流行起来,分布训练

降低过拟合

数据增强

(1)空间上的抠图

(2)PCA在通道上做了一点变换,颜色会不一样

Dropout

很多个模型放在一起时很有用的,但是对深度神经网络比较贵

dropout可以做模型融合,但是后面的工作说dropout是一个正则的东西

dropout可以缓解overfitting的问题

模型训练

用SGD来训练

手动来调参

一些训练的技术细节,参数设置

实验

实验的效果是比较重要的

如果刚开始实验,不用特别关心细节

验证集是可以一直测用来调参,测试集只能测1-3次

在gpu1上学习到的模式是颜色无关的,在gpu2上学习到的模式是颜色相关的(提出了一个疑问)

在一些底层的神经元学到了一些局部信息,在上层的神经元学到了一些上层信息

第三遍

可以继续看下去,看一下引用的那些文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值