AI 改进系列
文章平均质量分 85
不定期更新图像分类、分割网络改进,例如resnet、Transformer、Unet、Swin Unet等等。使用的框架为python+pytorch。# 所有改进后的模型均经过测试,可以直接使用!
听风吹等浪起
随缘学习,正常摆烂
个人主页:henry-zhang.blog.csdn.net
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
UNet 改进:添加EfficientViMBlock
本文提出了一种改进的UNet架构,通过集成高效的EfficientViMBlock模块,将CNN的局部特征提取能力与Transformer的全局建模优势相结合。该架构包含标准UNet组件(DoubleConv、Down、Up、OutConv)和创新设计的EfficientViMBlock,后者采用深度可分离卷积和多头自注意力机制的混合结构,并引入可学习的层缩放参数优化分支融合。实验表明,这种灵活可配置的混合架构在保持UNet原有优势的同时,显著提升了特征提取效率,特别适用于医学图像分割、遥感分析等需要精确像原创 2025-08-10 06:24:29 · 158 阅读 · 0 评论 -
VGG 改进:融合CNN与Transformer的VGG模型
本文提出了一种结合VGG16 CNN和Vision Transformer的混合架构。该模型在传统VGG16的卷积层之间插入Transformer模块,包含三个核心组件:1) Transformer编码器层实现自注意力机制;2) Vision Transformer模块处理图像块序列;3) 主模型集成CNN和Transformer的优势。该架构既能提取局部特征,又能建模全局关系,通过可学习的位置编码和残差连接实现高效特征融合。实验表明,这种混合设计在保持CNN优势的同时,增强了模型的全局建模能力,为计算机视原创 2025-07-27 11:06:30 · 76 阅读 · 0 评论 -
SwinTransformer 改进:稀疏化注意力机制(Sparse Attention)
本文提出了一种改进的稀疏注意力机制(SparseAttention),通过保留top-k注意力权重显著降低了Transformer模型的计算复杂度。该方法针对SwinTransformer架构实现,包含三个关键技术:1) 稀疏注意力层仅计算和保留top-k权重,减少计算量;2) 相对位置编码保持位置感知能力;3) 自动替换机制可将原始注意力层全部替换为稀疏版本。实验表明,该方法在保持模型性能的同时提升了计算效率,特别适用于高分辨率图像处理等场景。代码实现了完整的稀疏注意力模块和模型替换流程,为Transfo原创 2025-07-24 15:38:08 · 181 阅读 · 0 评论 -
SwinTransformer 改进:小波+注意力模块(Wavelet-Guided Attention)
本文提出了一种结合Swin Transformer和小波引导注意力模块(WGAM)的创新模型架构。WGAM通过Haar小波分解将特征图分为四个子带(LL,LH,HL,HH),并分别应用通道注意力和空间注意力机制,同时为各子带分配可学习权重。该模块被集成到Swin Transformer的patch embedding层之后,在不显著增加计算复杂度的情况下,实现了多尺度特征提取和自适应特征增强。实验表明,这种混合架构特别适合高分辨率图像分类、医学图像分析和遥感图像处理等任务。模型采用模块化设计,可灵活集成到其原创 2025-06-21 10:24:37 · 312 阅读 · 0 评论 -
UNet 改进:结合CAM注意力与DLKA注意力的改进UNet
本文提出一种改进的UNet网络架构,通过引入通道注意力模块(CAM)和动态大核注意力模块(DLKA)显著提升特征提取能力。该网络采用经典的编码器-解码器结构,核心创新点包括:1)Triplet_DoubleConv模块整合常规卷积、CAM和DLKA;2)CAM模块通过双路径池化学习通道重要性;3)DLKA模块使用7×7深度可分离卷积捕获大范围空间关系。网络特别适用于医学图像分割等精细任务,在保持UNet优势的同时增强了对长距离依赖和重要特征的捕捉能力。完整PyTorch实现展示了模块化设计,便于迁移应用。原创 2025-06-19 16:43:15 · 225 阅读 · 0 评论 -
EfficientNet 改进:StripCGLU模块的创新与应用
本文提出了一种改进的EfficientNet-b0模型,核心创新是通过引入StripCGLU模块来提升网络性能。StripCGLU结合了水平/垂直条带卷积和GLU激活机制,具有参数效率高、计算量少的优点。改进策略包括选择性替换部分MBConv为StripCGLU模块(每隔3个块插入),同时保留早期层结构。测试表明该模型适用于移动端视觉任务,在保持效率的同时提升性能。代码实现包含模块定义、模型构建及测试部分,展示了如何通过精心设计的模块改进现有网络架构。原创 2025-06-17 17:42:50 · 64 阅读 · 0 评论 -
SwinTransformer 改进:结合DLKA与SSPP的模型架构
本文提出了一种创新的计算机视觉模型架构,结合Swin Transformer、动态大核注意力(DLKA)和空间金字塔池化(SSPP)模块。该设计融合了Transformer的全局建模能力与CNN的局部特征提取优势,其中DLKA模块通过通道和空间注意力增强局部特征提取,SSPP模块实现多尺度特征融合。模型在Swin Transformer基础上插入这两个模块,形成兼顾全局-局部特征表达和多尺度处理的混合架构。实验验证表明,该模型适用于需要同时关注细粒度细节和全局上下文的视觉任务,为计算机视觉模型设计提供了新的原创 2025-06-17 13:27:09 · 192 阅读 · 0 评论 -
ShuffleNet 改进:与通道注意力机制(CAM)的结合实现
本文提出了一种改进的ShuffleNetV2模型,通过集成通道注意力机制(CAM)增强特征表示能力。CAM模块采用双分支结构(平均池化+最大池化)学习通道权重,并使用带压缩比的MLP减少参数量。模型保留了ShuffleNetV2的轻量特性,支持预训练权重加载,通过维度转换技巧将CAM无缝集成到网络中。实验验证表明,该方法在保持高效性的同时提升了模型性能,为轻量级网络设计提供了有效参考。代码开源,可直接应用于图像分类等任务。原创 2025-06-09 16:20:40 · 120 阅读 · 0 评论 -
MobileNet 改进:基于MobileNetV2和SSPP的图像分类
本文介绍了一种结合MobileNetV2和空间金字塔池化(SSPP)的轻量级图像分类模型。该模型采用MobileNetV2作为特征提取器,并集成了自定义SSPP模块,通过多尺度池化增强特征表达能力。模型结构包含特征提取、SSPP处理和线性分类三个部分,其中SSPP支持可配置的池化层级(默认1×1,2×2,4×4)。这种设计既保持了MobileNetV2的高效特性,又提升了模型对不同尺寸特征的适应能力。测试代码验证了模型可处理224×224输入并输出正确维度的分类结果。该实现为计算机视觉任务提供了一种平衡性能原创 2025-06-06 09:10:32 · 97 阅读 · 0 评论 -
ResUNet 改进:融合DLKA注意力机制
本报告详细分析了一个名为UResnet的深度学习网络架构,该网络结合了U-Net的编码器-解码器结构、ResNet的残差连接以及新型的Dilated Large Kernel Attention(DLKA)注意力机制。该网络设计用于图像分割任务,通过多尺度特征提取和融合实现精确的像素级预测。原创 2025-06-05 14:29:39 · 87 阅读 · 0 评论 -
U-ResNet 改进:集成CoordinateAttention(坐标注意力)
本文介绍了一种名为UResNet的混合神经网络结构,它结合了ResNet的残差连接、UNet的编码-解码架构以及坐标注意力机制。该网络通过BasicBlock/BottleNeck构建块实现特征提取,采用VGGBlock进行卷积处理,并引入CoordinateAttention模块增强位置感知。在编码阶段逐层下采样,解码阶段通过上采样和跳跃连接恢复分辨率,最终输出分割结果。代码实现展示了完整的网络架构和数据处理流程,测试结果表明该模型能有效处理224×224的输入图像。这种创新组合利用了不同网络的优点,为图原创 2025-06-02 11:12:45 · 90 阅读 · 0 评论 -
U-ResNet 改进:集成特征金字塔网络(FPN)
本文介绍了UResNet模型的设计与实现,该模型融合了U-Net的编码器-解码器结构、ResNet的残差连接以及特征金字塔网络(FPN)的多尺度特征提取能力。模型包含Up模块、BasicBlock、BottleNeck、VGGBlock和FPN等核心组件,通过编码器下采样、解码器上采样与特征融合,最终输出分割结果。测试表明模型能正确处理256×256输入并输出对应尺寸的分割图。UResNet兼具U-Net的信息保留能力、ResNet的梯度缓解特性以及FPN的多尺度优势,为图像分割任务提供了灵活高效的解决方案原创 2025-06-02 10:18:00 · 396 阅读 · 0 评论 -
ViT模型改进:基于双路径的多尺度特征融合
本文介绍了一种结合Vision Transformer (ViT) 和 ConvNeXt 的双路径深度学习模型,该模型通过多尺度处理和特征融合机制,在图像分类任务中表现出色。模型的核心组件包括多尺度模块和特征融合模块,分别用于捕获不同尺度的空间信息和自适应融合两种架构的特征。多尺度模块利用不同空洞率的卷积并行处理输入特征,而特征融合模块则通过注意力机制动态调整ViT和ConvNeXt特征的权重。双路径模型的设计充分发挥了ViT在全局特征捕获和ConvNeXt在局部特征提取上的优势,并通过预训练权重加速收敛。原创 2025-05-23 08:26:57 · 195 阅读 · 0 评论 -
DenseUnet 改进:结合RepHMS动态调整尺度模块
DenseUNet是一种创新的图像分割网络架构,结合了DenseNet的特征提取能力和U-Net的多尺度特征融合机制。其核心创新在于引入了RepHMS模块,该模块支持动态多尺度特征调整,能够根据目标尺寸灵活处理特征图。DenseUNet基于DenseNet-161构建,包含编码路径和解码路径,通过RepHMS模块在解码路径的每个阶段进行多尺度特征调整,并与编码路径的特征进行融合。网络还采用了密集跳跃连接,确保特征的有效传递和重用。DenseUNet支持任意输入通道数和可配置的输出类别数,适用于需要精确像素级原创 2025-05-14 07:30:00 · 97 阅读 · 0 评论 -
FCN改进:CBAM注意力机制增强FCN-ResNet50分割模型
本文介绍了一个结合CBAM(Convolutional Block Attention Module)注意力机制的FCN-ResNet50语义分割模型的实现。CBAM模块通过通道注意力和空间注意力机制,帮助模型聚焦于图像中的重要特征和区域,从而提高分割精度。代码首先实现了CBAM模块,接着在FCN-ResNet50模型的ResNet50骨干网络的四个层级后分别添加了CBAM模块,最后进行了前向传播测试。测试结果显示,模型能够输出5个类别的分割概率图。这种设计通过在不同层级添加注意力模块,捕捉不同尺度的特征,原创 2025-05-13 09:24:40 · 674 阅读 · 0 评论 -
EfficientNet 改进:与Transformer结合的图像分类模型
这个实现将EfficientNet的高效特征提取能力与Transformer的强大序列建模能力相结合,主要包含以下几个核心组件:基础卷积模块:包括Swish激活函数和ConvBnAct组合模块MBConv模块:EfficientNet的核心构建块Squeeze-Excitation注意力机制:通道注意力模块Transformer分类头:替代传统全连接层的创新设计。原创 2025-05-04 12:38:12 · 145 阅读 · 0 评论 -
SwinTransformer 改进:与PSConv结合的创新设计
这段代码实现了一个改进版的Swin Transformer模型,主要创新点在于:使用Swin Transformer作为基础架构在patch embedding层后加入PSConv模块自定义分类头以适应不同任务本文分析的代码展示了一种创新的深度学习架构设计思路,通过将Swin Transformer与PSConv相结合,在保持Transformer全局建模能力的同时,增强了局部特征提取能力。原创 2025-05-04 12:22:59 · 154 阅读 · 0 评论 -
DenseUNet 改进:结合APBottleneck(注意力瓶颈模块)
今天我们将深入分析一个名为DenseUNet的神经网络架构,它巧妙地将DenseNet的强大特征提取能力与UNet的经典U型结构相结合,并加入了注意力机制来提升模型性能。这个网络特别适用于图像分割任务,能够处理不同数量的输入和输出通道。原创 2025-04-30 10:55:28 · 757 阅读 · 0 评论 -
SwinTransformer 改进:结合局部拟合与全局注意力DTAB模块
DTAB模块是一种新型的神经网络构建块,它结合了两种强大的特征学习机制:局部拟合组件:通过多层感知机(MLP)捕捉输入数据的局部特征全局视角组件:利用多头自注意力机制理解特征间的全局关系这种双轨设计使得DTAB能够同时捕捉细粒度的局部特征和宏观的全局关系,为下游任务提供更丰富的特征表示。原创 2025-04-23 09:30:00 · 206 阅读 · 0 评论 -
ResNet改进:引入频域注意力机制,高频增强残差网络(HFERB)
这段代码实现了一个改进版的ResNet34网络,主要创新点是在标准的残差块后添加了高频增强残差块(HFERB)。保留原始ResNet的低频特征提取能力增强网络对高频特征的敏感性在不显著增加计算成本的情况下提升模型性能。原创 2025-04-23 07:45:00 · 247 阅读 · 0 评论 -
ShuffleNet 改进:添加局部特征增强(LFE)模块
这段代码实现了一个改进版的ShuffleNetV2模型,通过添加局部特征增强(LFE)模块来提升网络性能。原创 2025-04-22 09:02:17 · 133 阅读 · 0 评论 -
EfficientNet 改进:添加高效轻量级通道注意力机制(FFCM)
""""""# 局部通道交互# 全局通道交互局部通道交互:使用深度可分离卷积(depthwise convolution)捕获局部通道关系全局通道交互:类似SENet的全局注意力机制,但计算量更小这种设计使得FFCM既能够捕捉局部通道间的相关性,又能考虑全局通道重要性,同时保持了较低的计算复杂度。原创 2025-04-22 07:30:00 · 269 阅读 · 0 评论 -
VisionTransformer 有效涨点改进:结合Inception深度可分离卷积的Vision Transformer模型
在计算机视觉领域,Vision Transformer (ViT) 已经成为卷积神经网络(CNN)的有力竞争者。本文将深入解析一个创新的ViT变体——ViT_With_InceptionDW,它巧妙地将Inception模块和深度可分离卷积(DWConv)的思想融入ViT架构中。1.模型概述这个代码实现了一个改进版的Vision Transformer模型,主要特点是在标准的ViT架构中加入了自定义的Inception深度可分离卷积模块(InceptionDWConv2d)。原创 2025-04-21 08:14:11 · 406 阅读 · 0 评论 -
VGG 改进:VGG-Transformer混合模型(2024最新改进)
本文实现了一个结合VGG卷积神经网络和最新Transformer模块的混合架构,特别适用于计算机视觉任务。下面我将详细解析这个实现的各个组成部分。作用:替代传统的LayerNorm,计算更高效且效果相当特点只计算输入的均方根值进行归一化使用可学习的缩放参数计算量比LayerNorm少约20%RotaryEmbedding (旋转位置编码)作用:为Transformer提供位置信息2024改进动态调整缓存大小以适应不同序列长度使用更高效的正余弦计算方式支持长序列处理(最长2048)原创 2025-04-21 07:30:00 · 471 阅读 · 0 评论 -
EfficientNet 改进:添加SCSA Attention Module(2024改进方法)
这段代码实现了一个改进版的EfficientNet模型,集成了名为SCSA(Spatial-Channel-Squeeze-and-Attention)的自定义注意力模块。EfficientNet是一种高效的卷积神经网络架构,通过复合缩放方法在深度、宽度和分辨率三个维度上平衡模型性能与计算资源消耗。原创 2025-04-17 12:44:42 · 156 阅读 · 0 评论 -
Swin-Transformer-UNet改进:融合Global-Local Spatial Attention (GLSA) 模块详解
Global-Local Spatial Attention (GLSA) 是一种先进的注意力机制模块,专为计算机视觉任务设计,能够同时捕捉全局上下文信息和局部细节特征。该模块通过创新的双分支结构和自适应融合机制,显著提升了特征表示能力。核心设计原理1. 双分支架构全局分支:通过全局平均池化和全连接层建模整个图像空间的长期依赖关系局部分支:通过多尺度卷积操作捕捉不同感受野范围内的局部空间模式2. 自适应融合机制。原创 2025-04-16 10:26:24 · 1246 阅读 · 0 评论 -
UNet++ 改进:添加Swin Transformer模块
Swin Transformer将图像划分为不重叠的窗口(如7×7),在每个窗口内计算自注意力。Swin Transformer在图像分类、目标检测、语义分割等任务上都取得了优异性能,已成为视觉Transformer的重要基准模型之一。Swin Transformer通过这种巧妙的设计,在计算效率和模型性能之间取得了很好的平衡,推动了视觉Transformer的发展。Swin Transformer是微软亚洲研究院在2021年提出的一种基于Transformer的视觉骨干网络,它通过引入。原创 2025-04-15 09:55:17 · 257 阅读 · 0 评论 -
SwinTransformer 改进:SSPCAB模块(2024最新改进方法)
SSPCAB(Spatial Pyramid Pooling with Channel Attention Block)是2024年提出的一种新型神经网络架构改进方法,专注于在保持高精度的同时显著降低计算复杂度和参数量。该方法通过创新的空间金字塔池化与通道注意力机制的结合,实现了网络结构的紧凑化和运算效率的大幅提升。核心创新点1. 混合空间金字塔池化(Hybrid Spatial Pyramid Pooling, HSPP)多尺度动态核池化:根据输入特征图尺寸动态调整池化核大小和步长交叉级联结构。原创 2025-04-14 08:45:54 · 743 阅读 · 0 评论 -
VisionTransformer 有效涨点改进:添加Star_Block模块 (2024改进方法)
Star_Block是2024年提出的新型神经网络构建模块,旨在通过创新的结构设计实现更紧凑的网络架构和更高的计算效率。该方法在保持模型性能的同时,显著减少了参数数量和计算复杂度。Star_Block通过其创新的星型结构和高效计算策略,为2024年的高效深度学习模型设计提供了新的方向,特别适合需要平衡性能和效率的应用场景。:根据输入复杂度动态调整分支激活数量。各分支间不直接连接,减少冗余。:减少计算量同时保持表达能力。多个分支从中心向外辐射。上下文相关的计算路径。:分支间共享部分权重。内存占用降低约40%原创 2025-04-13 20:19:46 · 327 阅读 · 0 评论 -
EfficientNet 改进:添加CAA上下文锚定注意模块(2024改进方法)
1.CAA上下文锚定注意模块上下文锚定注意模块()是一种改进的注意力机制,旨在增强神经网络(特别是Transformer架构)捕获远程上下文信息的能力。2024年最新的改进方法进一步优化了其计算效率、长距离依赖建模能力,并增强了在低资源场景下的泛化性能。传统的自注意力机制(如Transformer中的Scaled Dot-Product Attention)在长序列建模时存在计算复杂度高(O(N2)O(N2))和难以捕获远距离依赖的问题。CAA通过引入。原创 2025-04-11 20:05:46 · 206 阅读 · 0 评论 -
ResNet改进:融合ConvNeXt模块
ConvNeXt是一种纯卷积神经网络架构,由Facebook AI Research (FAIR)在2022年提出,它通过现代化标准的卷积网络设计,达到了与Transformer模型(如Swin Transformer)相当甚至更好的性能。核心设计理念:ConvNeXt的核心理念是将标准ResNet逐步"现代化",融入Vision Transformer(ViT)和Swin Transformer中的成功设计,同时保持纯卷积的结构。其主要特点包括:采用类似Transformer的分层结构。原创 2025-04-09 08:31:02 · 366 阅读 · 0 评论 -
UNet 改进:添加TripletAttention注意力机制
它通过交叉维度的交互来捕获空间和通道间的依赖关系,同时保持了较低的计算复杂度。TripletAttention通过创新的三维注意力机制,在保持计算效率的同时有效提升了模型的特征表示能力。其独特的跨维度交互设计使其成为许多视觉任务的理想选择,特别是在资源受限的应用场景中。通过卷积层生成注意力图:A_i = σ(Conv(Z)) ∈ ℝ^{1×H'×W'}将注意力图应用于旋转后的输入:Y_i = A_i ⊗ X_rot。在编码器的第一个下采样层前之后,加入本文的模块。:同时捕获通道间和空间位置间的依赖关系。原创 2025-04-08 12:44:05 · 1064 阅读 · 0 评论 -
DenseNet (121,169,201)改进:添加Transformer层
Transformer是2017年由Google在论文《Attention Is All You Need》中提出的一种革命性的神经网络架构,它完全基于注意力机制,摒弃了传统的循环和卷积结构,在自然语言处理等领域取得了巨大成功。解码器的第二个注意力层使用编码器的输出作为K和V,解码器的表示作为Q,建立两者间的联系。多头自注意力机制(Multi-Head Self-Attention)将输入向量转换为查询(Q)、键(K)、值(V)三个矩阵。2.1 自注意力机制(Self-Attention)原创 2025-04-06 13:51:24 · 158 阅读 · 0 评论 -
UNet 改进:添加PPA 2024多分支特征提取策略详解
多分支特征提取(Multi-Branch Feature Extraction)是PPA(Pyramid Pooling Attention)2024改进的核心模块,旨在通过。:通过交叉注意力(Cross-Branch Attention)或特征图拼接+1×1卷积实现信息交互。:动态权重机制使模型灵活应对不同输入(如纹理复杂区域激活局部分支,平滑区域依赖全局分支)。:通过轻量级全连接层或SE模块生成各分支的权重,实现动态特征融合。:设计辅助损失函数(如分支特征一致性约束),避免分支退化。原创 2025-04-02 10:03:53 · 239 阅读 · 0 评论 -
VGG 改进:添加RFAConv模块优化特征冗余
是一种结合多尺度卷积与双注意力机制(通道+空间)的动态特征增强模块,旨在解决传统卷积层中特征冗余问题,提升模型的特征表示能力。其核心设计思想是通过多分支感受野提取不同尺度的上下文信息,并通过注意力机制动态校准特征重要性,最终实现高效的特征融合。以下从模块结构、关键组件及作用原理进行详细解析。RFAConv的整体结构分为四个核心部分(结构示意图如下):输入 → [多尺度卷积分支] → 特征融合 → [通道注意力] → [空间注意力] → 残差连接 → 输出。原创 2025-04-01 08:28:21 · 214 阅读 · 0 评论 -
ResNet改进:SE模块和多尺度模块两次改进
SE(Squeeze-and-Excitation)模块是一种轻量级的注意力机制,最初由Momenta和牛津大学的研究者在2017年提出,并在2018年的CVPR会议上发表。它通过显式建模通道间的相互依赖关系,自适应地重新校准通道特征响应,显著提升了多种卷积神经网络的性能。核心思想SE模块的核心思想是让网络能够学习到不同通道特征的重要性,并据此增强有用特征、抑制无用特征。:压缩空间信息,获取全局感受野:学习通道间的相关性,生成每个通道的权重结构组成。原创 2025-03-30 17:04:44 · 337 阅读 · 0 评论 -
VGG 改进:添加ScConv空间与通道特征重构卷积
或更复杂的融合方式如:F_out = Conv1×1(Concat[A_s ⊗ F_in, A_c ⊗ F_in])ScConv 将空间和通道重构有机结合:F_out = A_s ⊗ F_cr + F_in。通过残差连接保留原始信息:F_sr = Conv1×1(F_s) + F_in。形成空间注意力图:A_s = σ(Conv(F_sr)),σ为sigmoid。公式表示:F_s = DWConv(F_in),其中DWConv为深度卷积。将通道权重应用于特征图:F_cr = A_c ⊗ F_in。原创 2025-03-25 09:30:17 · 280 阅读 · 0 评论 -
ResNet 改进:加入Transformer模块
这个类继承了ResNet-34,并在ResNet-34的最后一个卷积层之后添加了Transformer模块。在ResNet-34中添加Transformer模块可以通过在网络的某个位置插入Transformer层来实现。方法中,输入首先通过ResNet-34,然后通过Transformer模块,最后通过全局平均池化和全连接层。: 这是一个简单的Transformer编码器模块,包含多个Transformer编码器层。:与 RNN 不同,Transformer 可以并行处理整个序列,训练速度更快。原创 2025-03-24 09:24:46 · 665 阅读 · 0 评论 -
DenseNet 改进:ODConv2d全维动态卷积替换卷积层
(Omni-Dimensional Dynamic Convolution,全维动态卷积)是一种创新的卷积操作,旨在通过多维度动态机制提升卷积神经网络的表达能力。它是对传统卷积(如标准卷积、动态卷积 CondConv 和 DyConv)的进一步扩展,能够在多个维度上动态调整卷积核的参数,从而更好地适应输入特征的变化。然而,现有的动态卷积方法通常只在单一维度(如通道维度)上引入动态机制,未能充分利用输入特征的多维度信息。相比传统的静态卷积和单一维度的动态卷积,ODConv2d 具有更强的灵活性。原创 2025-03-20 11:18:09 · 176 阅读 · 0 评论 -
Vgg 改进:添加ShuffleAttention模块增强跨通道交互能力
ShuffleAttention 是一种结合了通道注意力机制与通道混洗操作的模块,能够增强特征表达能力并促进组间信息交互。其中 W1∈RCG×CG⋅r, W2∈RCG⋅r×CG,r 为压缩比。本文 ShuffleAttention 模块 加入的位置在每次下卷积后。:对每组特征分别进行通道注意力计算(类似SE模块)。:重组通道使得不同组的信息能够交互。使用全局平均池化获取通道统计量。操作重组通道,促进跨组信息交换。:将输入特征图按通道分为G组。组,每组独立计算注意力权重。原创 2025-03-19 10:02:56 · 94 阅读 · 0 评论
分享