【论文阅读】AlexNet阅读笔记

小松不菜

于 2023-03-13 10:34:10 发布

阅读量298

点赞数

CC 4.0 BY-SA版权

分类专栏：论文阅读文章标签：论文阅读机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zjutkarma/article/details/129487315

论文阅读专栏收录该内容

16 篇文章

订阅专栏

文章探讨了深度学习的历史，强调了AlexNet在从无监督到监督学习转变中的作用。讨论了如何通过网络架构设计和正则化防止过拟合。提到了数据增强、dropout等技术在减轻过拟合中的应用，以及使用GPU进行分布式训练的重要性。文章还指出，简单的有效方法往往更持久，深度神经网络的核心是知识压缩过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一遍

阅读顺序

首先看abstract 和discuss

然后看重要的图和表

一些笔记

在AlexNet之前一般都是无监督学习，在AlexNet后开始流行有监督学习，直到Bert、GAN，开始流行无监督学习

在图片上走的很远，在nlp上也走了很远，在video上没有走的那么远

深度神经网络训练出来的向量，在语义空间里的表示特别好

第二遍

Introduction

正则来防止过拟合，但是最近说正则好像没有那么重要，更重要的是网络结构的设计

第三节讲的是我们怎么做一个更大的网络，第四节讲的是怎么样去处理过拟合

把很多技术放在一起得到了一个结果对别人是没有什么启发性的，因为这个东西过于复杂，过于难以复现。

从研究工作来说，工程上的细节是没有那么重要的

Dataset

直接在原始的pixel上做了

end-to-end神经网络直接帮你抽取特征

简单有效的东西是能够持久的

The Architecture

（1）激活函数

在标准网络中一般用tanh或者sigmoid，saturating nonlinearities

使用Relu是会效果会快一点

（2）用多个gpu来训练

这里是一些非常工程的细节，可以在机器学习的论文里暂时忽略掉

（3）正则化归一化

只要知道它是一个normalization的东西，并且可以避免饱和

（4）模型图

最后一张图片变成了了一个4096的向量，最后用了一个线性分类层去做连接，这个向量可以很好的抓住语义信息，这个向量变成了一个机器能看懂的东西

机器学习可以看作一个知识压缩的过程，这个是深度神经网络的精髓所在

这个图片的复杂点在于拆成了两个gpu来做，所以图示也分成了两块，把工程的复杂细节放到这里来讲，当时没有很关注这一块，现在又有点流行起来，分布训练

降低过拟合

数据增强

（1）空间上的抠图

（2）PCA在通道上做了一点变换，颜色会不一样

Dropout

很多个模型放在一起时很有用的，但是对深度神经网络比较贵

dropout可以做模型融合，但是后面的工作说dropout是一个正则的东西

dropout可以缓解overfitting的问题

模型训练

用SGD来训练

手动来调参

一些训练的技术细节，参数设置

实验

实验的效果是比较重要的

如果刚开始实验，不用特别关心细节

验证集是可以一直测用来调参，测试集只能测1-3次

在gpu1上学习到的模式是颜色无关的，在gpu2上学习到的模式是颜色相关的（提出了一个疑问）

在一些底层的神经元学到了一些局部信息，在上层的神经元学到了一些上层信息

第三遍

可以继续看下去，看一下引用的那些文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。