
深度学习理论
文章平均质量分 79
Cpdr
深度学习图像方面的项目可指导
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition 中的空洞自注意力机制
本文针对DilateFormer中的空洞自注意力机制原理和代码进行详细介绍,最后通过流程图梳理其实现原理。原创 2025-01-17 19:19:26 · 1750 阅读 · 0 评论 -
SwinUnet详解
文章目录原创 2024-07-06 21:08:00 · 1711 阅读 · 0 评论 -
SwinTransformer的相对位置索引的原理以及源码分析
如下图,假设输入的feature map高宽都为2,那么首先我们可以构建出每个像素的绝对位置(左下方的矩阵),对于每个像素的绝对位置是使用行号和列号表示的。比如上面的相对位置索引中有(0,−1)和(−1,0)在二维的相对位置索引中明显是代表不同的位置,但如果简单相加都等于-1那不就出问题了吗?因为后面我们会根据相对位置索引去取对应的参数。这样即保证了相对位置关系,而且不会出现上述0 + ( − 1 ) = ( − 1 ) + 0 0+(-1)=(-1)+00+(−1)=(−1)+0的问题了,是不是很神奇。原创 2024-07-06 17:03:10 · 940 阅读 · 0 评论 -
搭建ASPP:多尺度信息提取网络
ASPP(Atrous Spatial Pyramid Pooling),空洞空间卷积池化金字塔。简单理解就是个至尊版池化层,其目的与普通的池化层一致,尽可能地去提取特征。ASPP 的结构如下:如图所示,ASPP 本质上由一个1×1的卷积(最上) + 池化金字塔(中间三个) + ASPP Pooling(最下面三层)组成。而池化金字塔各层的膨胀因子可自定义,从而实现自由的多尺度特征提取。原创 2024-06-28 21:01:46 · 980 阅读 · 0 评论 -
信息量、香农熵、交叉熵、KL散度的意义
对于一个事件:信息量的计算公式:I(x)=log2(1p(x))=−log2(p(x))\begin{aligned}&I(x)=log_2(\frac{1}{p(x)})=-log_2(p(x))\end{aligned}I(x)=log2(p(x)1)=−log2(p(x))举例:①均匀的硬币②不均匀的硬币:服从某一概率分布的平均信息量(期望),也是一种不确定度的计算方式。香农熵的计算公式:H(p)=∑piIip=∑pilog2(1pi)=−∑pilog2(pi)\begin{align原创 2024-06-19 17:18:41 · 1387 阅读 · 0 评论 -
深度学习中torch.max函数的作用
是 PyTorch 中的一个函数,用于在张量中沿指定维度计算最大值。② 如果提供两个输入张量,则返回两个张量中对应位置的较大值。原创 2024-06-05 12:56:28 · 607 阅读 · 0 评论 -
【各种卷积公式】
卷积的通道越多,提取特征图的信息越多,但不是越多越好。:卷积之后特征图的通道数和尺寸不变是为了。其中,经过卷积后特征图的。原创 2023-08-15 09:57:44 · 2233 阅读 · 0 评论 -
python实现:图像分割指标的计算
Dice系数和IOU的计算方式略有不同,但它们的主要区别在于Dice系数对预测结果和真实标签的交集和并集的贡献是相等的,而IOU更加关注预测结果与真实标签的交集。其中,TP(True Positive)表示预测为正样本且标签为正样本的像素数量,FP(False Positive)表示预测为正样本但标签为负样本的像素数量,FN(False Negative)表示预测为负样本但标签为正样本的像素数量。Dice系数的取值范围在0到1之间,其值越接近1,表示预测结果与真实标签的重叠度越高,相似度越高。原创 2024-03-22 16:26:00 · 1916 阅读 · 0 评论 -
【理论学习】Vision-Transformer
声明:本篇文章是我再b站观看博主的视频后,做的一篇笔记,推荐大家看完视频在来简单浏览该文章。文章如有不妥之处,欢迎大家指出。原创 2023-10-20 09:46:57 · 421 阅读 · 0 评论