
深度学习
文章平均质量分 53
AEP_WYK
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BN和LN的区别
BN针对一个batch_size中同一维度的样本在做处理。比如上图,有x1,x2,…,xR个样本,这些样本的第一个维度描述的是体重,第二个维度描述的身高,BN在所有样本的的每一个特征(比如体重维度、身高维度)上进行归一化,BN的优点:第一个优点可以解决内部协变量偏移,第二个优点就是缓解了梯度饱和问题(如果使用sigmoid函数的话),加快收敛。BN的缺点:第一个缺点batch_size较小的时候,效果很差,因为BN就是用batch_size中样本的均值和方差去模拟全部样本的均值和方差,这个假设在转载 2022-04-25 20:42:18 · 2060 阅读 · 0 评论 -
pytorch查看模型某一层的参数以及参数初始化
查看模型特定层的参数对于nn.Sequencial模块除了可以通过下面这种方法访问模型中特定层的参数外, 还可以以索引的形式访问某一层特定层import torchimport torch.nn as nnnet = nn.Sequential(nn.Linear(1024, 512), nn.ReLU(), nn.Linear(512, 256), nn.ReLU(), nn.Linear(256, 2))for name, param in net.named_parameters()原创 2021-12-16 14:45:27 · 5281 阅读 · 1 评论 -
史上最全的支持向量机(SVM)公式推倒
支持向量机支持向量机(SVM)一、SVM最初是为了解决什么问题二、SVM分类三、基本理论支持向量机(SVM)一、SVM最初是为了解决什么问题在深度学习之前,提出SVM是为了解决二分类问题。二、SVM分类hard-margin SVMsoft-margin SVMkernel SVM三、基本理论对于hard-marigin SVM,我们要找到一个超平面,使得与该超平面最近的点到此超平米的距离最大。因为如果距离很近的话会使得模型的鲁棒性很差,稍微有一点点噪声就可能使得SVM分类错误。如下原创 2021-03-04 19:48:03 · 1063 阅读 · 5 评论 -
卷积神经网络中感受野的计算
https://zhuanlan.zhihu.com/p/72924825转载 2021-02-06 08:56:35 · 145 阅读 · 0 评论 -
conda/pip两种快速安装Tensorflow-gpu的方式
主要讲一下在Linux下安装tensorflow gpu版的两种方式:使用conda和pip安装。安装cpu版本比较简单,安装命令相同,但是省去了安装cuda和cudnn。注意: 在安装tensorflow gpu版本前,首先要清楚不同版本tensorflow对应不同的cuda,cudnn版本,而不同的cuda版本对显卡驱动版本又有要求。这几个版本不符合要求是无法使用gpu版本的tensorflow,下面给出了官网说明。tensorflow-gpu各版本与cuda,cudnn匹配查询:https://转载 2020-11-03 19:07:32 · 1843 阅读 · 0 评论 -
梯度消失和梯度爆炸原因及其解决方案
当我们需要解决一个非常复杂的问题,例如在高分辨率图像中检测数百种类型的对象,我们可能需要训练一个非常深的DNN,可能需要几十层或者上百层,每层包含数百个神经元,通过成千上万个连接进行连接,我们会遇到以下问题:首先,梯度消失或梯度爆炸其次,训练缓慢第三,训练参数大于训练集的风险梯度消失的原因:生物神经元似乎是用 Sigmoid(S 型)激活函数活动的,因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明,Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一转载 2020-10-11 17:02:03 · 521 阅读 · 1 评论 -
滤波器等于卷积核吗?
滤波器:卷积核的集合这两个术语之间有着本质的区别:仅在 1 通道的情况下,滤波器和内核这两个术语等价,在一般情况下,它们是不同的。每个过滤器实际上是卷积核的集合,图层的每个输入通道都有一个卷积核,并且是唯一的。卷积层中的每个滤波器都只输出一个通道,他们是这样实现的:滤波器的每个卷积核在各自的输入通道上「滑动」,产生各自的计算结果。一些内核可能比其他内核具有更大的权重,以便比某些内核更强调某些输入通道(例如,滤波器的红色通道卷积核可能比其他通道的卷积核有更大的权重,因此,对红色通道特征的反应要强于转载 2020-09-28 18:56:57 · 6826 阅读 · 0 评论 -
CNN中maxpooling的作用
首先介绍一下什么是maxpooling层:这样对应于每个红框内的数字都取max,这种操作即为maxpooling。(如果框中取平均值的话则为average pooling)maxpooling层的作用: invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度) 保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力(1) translation invariance:这里举一个直.原创 2020-09-28 18:43:43 · 2203 阅读 · 0 评论 -
pip修改清华源
最近安装python库是真心累,没有啥是不超时的,下着下着就崩了,心态崩了呀!后面果断换成清华源,速度飞起!!!这里需要注意的是,如果要将清华源设置成默认,那么需要将pip升级(>10.0.0),然后再进行配置:升级pippip install pip -U # 如果升级都升级不了,那么直接使用清华源来升级pip:# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip -U配置默认镜像站 pip confi.转载 2020-07-09 18:54:22 · 305 阅读 · 0 评论 -
KL-divergence
看论文1的时候遇到的,该论文首先得出了衡量两个概率分布之间的距离的公式,目标函数是使这两个概率之间的距离d( · , · )尽可能小,但是由于比较难算,因此用计算KL-divergence代替d( · , · ),一时不知这是什么,因此上网查了KL-divergence,胡乱总结2如下KL-divergence又叫相对熵(relative entropy),衡量两个概率分布之间的不同程度。作用在于(不大清楚):Characterizing the relative (Shannon) entropy转载 2020-07-08 18:39:57 · 454 阅读 · 0 评论 -
一图搞懂正则化(Normalization)
经常看到transform.ToTensor(),transform.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))那transform.Normalize()是怎么工作的呢?以上面代码为例,ToTensor()能够把灰度范围从0-255变换到0-1之间,而后面的transform.Normalize()则把0-1变换到(-1,1).具体地说,对每个通道而言,Normalize执行以下操作:image=(image-mean)/std其中mean和std.原创 2020-06-26 17:18:51 · 2189 阅读 · 0 评论 -
《零基础入门深度学习》
文章列表零基础入门深度学习(1) - 感知器零基础入门深度学习(2) - 线性单元和梯度下降零基础入门深度学习(3) - 神经网络和反向传播算法零基础入门深度学习(4) - 卷积神经网络零基础入门深度学习(5) - 循环神经网络零基础入门深度学习(6) - 长短时记忆网络(LSTM)零基础入门深度学习(7) - 递归神经网络...转载 2020-04-12 09:18:36 · 224 阅读 · 0 评论