- 博客(24)
- 收藏
- 关注
原创 CVPR 2025 | 即插即用,极简数据蒸馏,速度up20倍,GPU占用仅2G
本文提出了一种创新的神经特征函数匹配(NCFM)方法用于高效数据集蒸馏。该方法通过构建minmax对抗优化框架,引入神经特征函数差异(NCFD)作为新的分布度量指标,在复数空间实现数据特征的对齐。NCFM具有三大创新点:1)基于复数相位和振幅解耦的神经特征函数度量;2)动态采样网络实现高效计算;3)层级式特征对齐机制。实验表明,在CIFAR-100等数据集上,NCFM相比现有方法内存消耗降低300倍,处理速度提升20倍,同时保持无损压缩效果,为低资源环境下的模型训练提供了新范式。该方法在边缘计算、隐私保护数
2025-08-11 16:25:07
572
原创 TNNLS 2025 | 可变形卷积+可变形空间注意力机制,即插即用!
本文提出了一种轻量级可变形卷积神经网络DSAN,通过优化DCNv3的核心操作和特征提取模块,解决了现有方法在轻量级设备上的适配难题。核心创新包括:可变形条纹卷积(DSCN)简化计算,可变形空间注意力(DSA)增强特征提取,以及轻量级骨干网络DSAN的构建。实验表明,DSAN在图像分类、语义分割和目标检测任务中表现优异,以更少的参数和计算量实现了与重量级模型相当的性能。例如,DSAN-S在ImageNet1K上达到82.3%的准确率,在ADE20K语义分割任务中mIoU达48.8%,为轻量级设备部署高性能视觉
2025-08-06 15:44:04
1036
原创 ICML 2025 | 快手&南开提出模块化双工注意力,即插即用,涨点起飞!
快手可灵团队与南开大学合作提出多模态情感理解模型"摩达(MODA)",通过创新模块化双工注意力机制解决跨模态注意力缺陷问题。该模型采用"先对齐后修正"策略,包含双工注意力对齐和模块化掩码注意力两大核心模块,在视觉-语言模态交互中实现精细化调控。实验表明,MODA在21个基准测试的感知、认知与情感任务中表现优异,尤其在角色剖析与情感识别场景显著优于同类模型,相关成果入选ICML 2025焦点论文(Top 2.6%)。这一突破为人机交互中的情感理解提供了新范式。
2025-08-05 16:56:20
556
原创 CVPR 2025 | 新颖的L型卷积,即插即用,效率狂飙还超 SOTA 1dB+!
本文提出DnLUT框架,通过Pairwise Channel Mixer(PCM)和L形卷积核设计,实现了彩色图像高效去噪。PCM模块通过重组RGB通道为三对并行处理,有效捕捉通道间相关性;L形卷积核则减少50%像素重复访问,降低17倍存储需求。实验表明,DnLUT在CBSD68等数据集上的CPSNR显著优于现有LUT方法超1dB,存储仅需500KB,且可作为插件提升其他LUT方法性能。该框架在保持高质量去噪的同时,极大降低了计算复杂度,为边缘设备提供了高效的图像处理解决方案。
2025-08-04 18:11:08
887
原创 【CVPR 2025】10种即插即用涨点模块合集!含注意力机制、卷积变体、Mamba变体等
【摘要】本文精选CVPR2025十大即插即用模块,助您突破科研瓶颈。这些创新模块包括:DFormerv2(几何自注意力RGBD分割)、MambaIRv2(注意力状态空间恢复)、JamMa(轻量级特征匹配)、LSNet(异尺度视觉网络)等,覆盖语义分割、图像恢复、异常检测等多个领域。每个模块均提供论文原文+代码实现,并附精简版代码优化使用体验。通过模块化"搭积木"方式,可快速构建模型,显著提升实验效率,解决创新点构思、模型修改和代码调试等科研痛点。
2025-07-30 15:48:33
796
原创 【CVPR 2025】轻量化结构感知+Mamba模块,即插即用,轻量且准确!
本文提出了一种轻量级结构感知视觉Mamba网络SCSegamba,用于实现结构裂缝的高质量像素级分割。针对现有方法在裂缝形态建模和计算效率方面的不足,该网络通过结构感知视觉状态空间模块(SAVSS)整合轻量级门控瓶颈卷积(GBC)和结构感知扫描策略(SASS),在保持低计算成本的同时有效捕捉裂缝的形态和纹理特征。其中,GBC通过低秩近似和门控机制降低计算复杂度,SASS则通过多方向扫描增强拓扑结构感知能力。实验表明,该方法在多个基准数据集上达到最优性能,仅需280万参数即可实现0.8390的F1分数和0.8
2025-07-29 16:26:49
791
原创 【ACL 2025】大语言模型 + 知识图谱双加持!即插即用,SeedBench 准确率暴涨 15% 刷新 AI SOTA!
本文提出ROGRAG框架,通过多阶段检索机制和增量知识图谱构建优化GraphRAG系统。该框架整合双层次检索(模糊匹配实体和关系)与逻辑形式检索(结构化推理),结合论证检查验证,显著提升了检索鲁棒性。实验表明,ROGRAG在SeedBench上使Qwen2.5-7B-Instruct的准确率从60%提升至75%,优于主流方法。消融研究验证了各组件有效性,特别是增量知识图谱构建使节点数增加40%,准确率提升13%,为专业领域知识增强提供了有效解决方案。
2025-07-28 18:10:41
1511
原创 【CVPR 2025】即插即用,MobileMamba三阶段架构+Wavelet增强,颠覆轻量模型格局!
本文提出轻量级视觉网络MobileMamba,通过三阶段架构和多感受野特征交互模块(MRFFI)实现高效视觉处理。MRFFI模块融合小波变换增强全局特征捕获,动态核选择机制优化局部细节提取,在降低计算量的同时提升性能。实验显示,MobileMamba在ImageNet-1K分类任务达83.6% Top-1准确率,下游任务中表现优异,GPU吞吐量比同类方法快3.5倍,为移动端视觉处理提供高效解决方案。
2025-07-24 14:59:56
864
原创 【CVPR 2025】内容感知Token高效聚合,轻量超分网络CATANet,即插即用!
基于Transformer的方法在图像超分辨率(SR)等低级视觉任务中表现优异,但其计算复杂度随空间分辨率呈二次增长。现有方法如窗口划分、轴向条纹注意力等通过限制局部区域计算来缓解复杂度,但忽略了图像全局冗余信息,导致长距离依赖捕捉能力不足。为此,CVPR2025论文《》提出了轻量级内容感知Token聚合网络,通过高效的Token聚合与注意力机制,在保持计算效率的同时增强长距离依赖建模能力。内容感知Token聚合模块(CATA)的提出。
2025-07-23 15:00:54
880
原创 【CVPR 2025】即插即用DarkIR, 频域-空间协同的高效暗光恢复!
《DarkIR: Robust Low-Light Image Restoration》提出了一种创新的低光图像恢复方法,通过频域-空间域协同建模实现高效多任务处理。该研究采用轻量化注意力机制和非对称编解码器结构,在频域进行光照增强,在空间域处理去模糊任务。实验表明,DarkIR在LOLBlur等数据集上性能优于现有方法,同时计算量大幅降低(参数比LEDNet减少55%,MAC操作减少95%)。该方法突破了传统任务分离的局限,为实时低光图像恢复提供了可行方案,未来可拓展至视频处理及移动端部署。
2025-07-22 11:15:18
871
原创 复旦x腾讯优图提出PixelPonder 框架,即插即用,从草图到成品一键搞定!
本文提出PixelPonder框架,解决多视觉条件文本生成图像时的控制冲突问题。该框架通过补丁级自适应选择机制动态整合不同视觉条件,并结合时间感知控制实现从结构到纹理的渐进式调节。实验表明,PixelPonder在MultiGen-20M和Subject-200K数据集上显著优于现有方法,SSIM提升8.41%-19.29%,FID达10.61-11.85,同时在保持文本一致性和图像质量方面表现优异。可视化结果证实,该方法能有效避免线条粗糙、主体扭曲等问题,实现多条件协调控制。
2025-07-21 18:09:46
604
原创 【CVPR 2025】港大提出:上下文动态混合卷积 ContMIx,不仅能压缩显存 ,还能涨点!
港大团队在CVPR 2025提出全新卷积网络OverLoCK,突破传统金字塔结构瓶颈。该模型模仿人类视觉机制,采用"先全局后局部"的三步架构:Base-Net提取基础特征,Overview-Net获取全局语义,Focus-Net进行细粒度识别。创新性地提出Context-Mixing动态卷积,使3×3小核具备全局建模能力。实验表明,OverLoCK在ImageNet分类(84.2% Top-1)、COCO检测(49.6 AP)和ADE20K分割(50.8 mIoU)三项任务上均实现SOT
2025-07-18 17:47:10
599
原创 【CVPR 2025】LAIN刷爆零样本HOI检测SOTA,高效涨点起飞!
本文提出了一种局部感知的零样本人类-物体交互检测框架LAIN,通过增强CLIP模型的细粒度识别能力,有效解决了现有方法在零样本HOI检测中的泛化问题。LAIN创新性地设计了局部适配器和交互适配器,分别用于捕捉局部细节特征和交互模式特性。实验表明,该方法在HICO-DET和V-COCO数据集上显著优于现有技术,在未见交互类别上的识别准确率提升明显。消融研究验证了各模块的有效性,可视化结果进一步展示了LAIN在复杂场景中的鲁棒性。该研究为零样本视觉任务中的细粒度理解提供了新思路。
2025-07-16 10:17:29
807
原创 【CVPR2025】上交 + VIVO 联手搞大事, OSDFace 让人脸修复快到飞起,涨点狂飙!
单步扩散人脸修复新突破:OSDFace实现高效高保真图像生成 上海交大与VIVO团队提出OSDFace模型,首次将单步扩散技术应用于人脸修复领域。该模型通过创新的视觉表征嵌入器(VRE)捕捉人脸先验信息,结合人脸识别损失和GAN引导,实现了身份一致性与真实感的高度平衡。实验表明,OSDFace在512×512图像上仅需0.1秒即可完成修复,且在CelebA-Test等测试集上,其LPIPS、DISTS等指标均超越现有方法,尤其在头发纹理、皮肤细节等关键特征上表现出色。这项研究为高质量实时人脸修复提供了新思路
2025-07-15 10:29:44
986
原创 以前的 SOTA 弱爆了!双坐标注意力 + 内卷网络碾压药用花卉分类,准确率狂涨 6%+,轻量且涨点!
摘要 本文提出Flora-NET模型,用于解决药用花卉分类难题。该模型创新性地融合双坐标注意力(DCAFE)和反卷积特征细化(Inv-FR)模块,通过并行池化增强特征判别性,并利用自适应核动态优化空间特征。实验表明,Flora-NET在Urban Street和Medicinal Blossom数据集上分别达到91.12%和91.18%的准确率,较VGGNet-16提升6.94%和5.71%。消融实验验证了核心模块的有效性,可视化分析显示模型能精准聚焦花瓣等关键区域。第三方数据集测试(83.57%准确率)进
2025-07-14 10:53:17
546
原创 【TCSVT 2025】边缘-高斯多模态融合LEGNet,轻量遥感目标检测架构,即插即用!
本文介绍了一种名为LEGNet(Lightweight Edge-Gaussian Driven Network)的轻量级骨干网络,专门用于低质量遥感图像中的目标检测任务。遥感目标检测(RSOD)常常受到低空间分辨率、传感器噪声、运动模糊和光照不良等因素的干扰,导致特征区分度降低,目标表示模糊,前景与背景难以分离。现有的RSOD方法在低质量目标的鲁棒检测方面存在局限性。
2025-07-11 10:44:41
1009
原创 清华团队 CVPR 2025 炸场!LSNet 凭 “见大聚焦小“ 颠覆轻量级视觉模型_2025-07-09
清华团队在CVPR 2025发表的论文《LSNet: See Large, Focus Small》提出了一种轻量级视觉网络设计新范式。受人类视觉系统启发,团队创新性地提出"见大、聚焦小"策略,设计LS卷积操作(大核感知+小核聚合)来平衡计算效率与性能。该方法在ImageNet分类任务中,LSNet-B比AFFNet精度提高0.5%且速度快3倍;在COCO检测任务中,LSNet-T比StarNet-S1 AP提升0.6;在ADE20K分割任务中也表现优异。该研究为轻量级视觉模型设计提供了
2025-07-10 10:17:51
572
原创 【ICCV 2025】频率解耦轻量视觉Mamba TinyViM,重构区域特征交互,即插即用!
本文提出TinyViM模型,通过频率解耦和频率斜坡inception设计,优化混合视觉Mamba架构的性能。研究发现传统Mamba更擅长低频信息建模,TinyViM采用拉普拉斯分解将低频输入Mamba块,高频使用卷积处理,实现高效全局建模与细节保留。模型还通过动态调整高低频通道比例,适应不同网络深度的特征需求。实验表明,TinyViM在图像分类、目标检测和语义分割任务中均超越同类模型,吞吐量提升2-3倍,参数效率更高。该工作为轻量级视觉模型设计提供了新思路,未来可拓展至多模态和边缘计算场景。
2025-07-09 11:53:01
815
原创 【ICLR 2025】即插即用:差分注意力+动态门控实现长文本建模新突破,直接涨点起飞!
微软与清华联合提出差分Transformer(Diff Transformer),通过差分注意力机制有效消除传统Transformer中的注意力噪声问题。该模型采用双路Softmax差值计算动态消除无关上下文干扰,引入可学习差分系数λ调节噪声消除强度,并设计头间独立归一化技术提升稳定性。实验表明,Diff Transformer在语言建模任务上准确率提升4.8%,长文本关键信息检索准确率提升76%,参数效率提升37.8%,同时显著改善模型量化性能。这一创新为提升大语言模型的关键信息捕捉能力和推理性能提供了新
2025-07-08 17:13:29
861
原创 【CVPR2025】 即插即用:Joint Mamba 驱动的超轻量级特征匹配,突破效率与性能的平衡极限,涨点起飞!
论文《JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba》提出了一种基于Joint Mamba的新型特征匹配方法JamMa,通过创新的JEGO(Joint, Efficient, Global, Omnidirectional)策略实现了高效的全局特征交互与多方向表示。该方法采用联合扫描机制交替处理双视图特征,结合四向扫描和门控卷积聚合器,在保持线性计算复杂度的同时显著降低计算开销。实验表明,JamMa在MegaDepth和HPa
2025-07-07 17:50:16
864
原创 即插即用模块:GRFormer分组残差自注意力+指数位置编码,轻量超分新标杆!直接涨点起飞
摘要 本文提出GRFormer,一种轻量化单图像超分辨率(SISR)模型,通过创新的分组残差自注意力(GRSA)机制解决传统Transformer模型的高计算复杂度问题。GRSA包含分组残差层(GRL)和指数空间相对位置偏置(ES-RPB),分别优化QKV线性层的效率和位置编码,显著降低参数量和计算开销。实验表明,GRFormer仅需SwinIR 20%的参数量,在DIV2K数据集上PSNR提升最高0.23dB,同时计算成本降低49%。该模型为资源受限场景下的高效超分辨率任务提供了新范式,兼顾性能与效率。
2025-07-06 12:15:00
1046
原创 【CVPR2025】清华等多校联合出品:MambaIRv2让Attention与状态空间“双向内卷!涨点起飞!
本文摘要(142字): CVPR 2025论文《MambaIRv2: Attentive State Space Restoration》提出了一种突破传统Mamba限制的图像恢复新方法。针对Mamba的因果建模缺陷,研究团队创新性地设计了注意力状态空间方程(ASE)和语义引导邻域(SGN)机制:ASE通过提示学习实现非因果建模,允许全局像素"查询";SGN则通过语义重组缓解长距离衰减。实验表明,这一架构在保持线性复杂度的同时,显著提升了图像恢复效果。例如在超分辨率任务中,轻量版模型参数
2025-07-05 12:30:00
1405
原创 【CVPR025】即插即用-DFormerv2 首创几何自注意力,三大数据集碾压 SOTA,涨点起飞!
本文提出DFormerv2模型,通过几何自注意力机制将深度数据作为几何先验直接引入RGBD语义分割任务。该方法创新性地融合深度和空间几何信息,构建高效编码器,在NYU DepthV2、SUNRGBD和Deliver三大数据集上实现性能突破。实验表明,DFormerv2-L以95.5M参数取得58.4% mIoU,计算量较SOTA方法降低50%以上,展现出优异的性能与效率平衡。该研究为RGBD语义分割提供了新的技术路线,具有重要的理论和应用价值。
2025-07-04 12:07:28
786
原创 【CVPR2025】即插即用SCSA 用连续 + 稀疏双机制,让计算范式被改写!直接涨点起飞!
本文提出了一种即插即用的语义连续-稀疏注意力机制(SCSA),用于解决现有基于注意力的任意风格迁移方法(Attn-AST)在处理同语义内容与风格图像时出现的语义区域风格不一致、相邻区域不连续及纹理缺失问题。SCSA通过双注意力模块协同工作:语义连续注意力(SCA)确保同语义区域的整体风格一致性,语义稀疏注意力(SSA)捕捉具体纹理细节。该方法无需重新训练即可集成到CNN、Transformer和扩散模型等现有Attn-AST框架中,显著提升了语义准确性、风格连续性和纹理丰富度。
2025-07-03 17:49:15
677
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人