自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 学习日记8:VMamba: Visual State Space Model

文章建立了一个基于Mamba的具有线性时间复杂度的视觉主干模型VMamba。VMamba的核心是是具有2D选择性扫描(SS2D)模块的视觉状态空间(VSS)块的堆叠通过沿沿着四条扫描路线进行扫描,SS2D弥合了一维选择性扫描的有序性与二维视觉数据的非顺序结构之间的差距,这有助于从各种来源和角度收集上下文信息。大量的实验证明了,与现有的基准模型相比,VMamba在各种视觉感知任务中的良好表现,突出了其上级输入缩放效率。

2025-08-01 13:13:08 313

原创 学习日记7:Vision Mamba: Efficient Visual Representation Learning with BidirectionalState Space Model

最近,Mamba深度学习模型在长序列建模方面显示出巨大潜力,于是使用Mamba建立一个有效且通用的视觉主干网络成了一个热门方向。但是由于视觉数据的位置敏感性和视觉理解的全局上下文要求,表示视觉数据对Mamba具有挑战性。文章提出了一个通用的视觉模型,用位置嵌入标记图像序列,用双向状态空间模型压缩视觉表示,在图像识别,目标检测,语义分割等方面都取得较为不错的成绩。SSM模型很早就被提出了,经过改进后变得擅长捕捉长距离依赖性并适合于并行训练,之后又有人将其与CNN或Transformer结合来处理二维数据。

2025-07-30 13:18:53 865

原创 学习日记6:CNN-F

神经网络容易受到输入扰动的影响,相较之下,人类对这方面的鲁棒性强得多。贝叶斯大脑假设指出,人类大脑使用内部生成模型来更新感官输入的后验信念,这种机制可以解释为内部生成模型的最大后验概率(MAP)估计与外部环境之间的自一致性。比如,人类看到一只猫,大脑用已有的经验(比如过去见过的猫的样子)先形成一个预期,再根据眼前的实际画面调整这个预期,直到两者匹配。受这一假设的启发,通过引入生成循环反馈来增强神经网络的自一致性,并在CNN上实例化,提出CNN-F。传统的深度神经网络通常包含多层前馈连接。

2025-07-28 15:07:31 1055

原创 学习日记5:MambaOut

Mamba最近被用来解决注意力机制的平方复杂度问题,随后被应用于视觉。然而,相较于基于卷积和注意力的视觉模型,Mamba在这方面还很弱。此文认为Mamba适合于自回归和长序列的任务,图像分类既不属于自回归也不属于长序列,所以在分类任务上,Mamba的能力较弱;检测和分割属于长序列但不属于自回归,所以Mamba在这方面可以试一下。通过堆叠Mamba块,同时去除其核心token混合器SSM,构建了一为MambaOut的模型。

2025-07-25 11:36:13 999

原创 学习日记4:Mamba

目前的很多深度模型都是基于Transformer以及自注意力机制的,但是Transformer过大的计算量限制了计算效率。许多计算量更小的模型被提出,如线性注意力,门控卷积和递归模型,以及结构化状态空间模型(SSM)已经被开发出来,但它们在语言等重要模态上的表现不如注意力,一个关键弱点是他们无法执行基于内容的推理,文章就进行了一些改进。首先,让SSM的参数变为与数据相关,解决了离散模态的弱点,允许模型根据当前token选择性地沿着序列长度维度传播或忘记信息;

2025-07-23 12:43:11 699

原创 学习日记3:AbSViT

目前的注意力算法,例如自注意力机制都是重点关注图片里所有显著的对象,而人类观察物体都是带着目的性去的,只关注与任务相关的物体,而自顶向下的注意力机制可以提供模型这种能力。之前的工作说明视觉注意力和稀疏重构在功能上一致,Abs可以通过自顶向下的注意力机制优化稀疏重构,基于上述,文章提出了一个AbSViT--不仅可以提升视觉-语言模型的性能,还可以作为主干网络,提高分类、语义分割的性能并和增强模型鲁棒性。稀疏重构。

2025-07-19 20:32:08 872

原创 学习日记2:OverLoCK

人类观察事物时,都是先对一个全景进行一个大致的观察,然后才会细致地注意某一块事物。然而,目前主流的金字塔型的模型处理视觉信息时的流程不符合人类观察事物的仿生原理。于是,该文提出了一种明确地结合了自上而下的注意力机制的模型,这个模型由三个子网络构成:一个基础网络用来编码低层次的信息,一个用来快速地产生全局的粗略信息,最后一个网络用来聚焦重要的物体。为了充分释放这个模型的性能,文章还提出了一个新型动态卷积ContMix。

2025-07-17 12:33:54 744

原创 学习日记1:动态神经网络综述

动态神经网络综述的学习笔记,目前只有前四章。

2025-07-11 12:09:26 633

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除