AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

原创 MiMo-VL 技术报告

我们开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个强大的视觉语言模型，它们在通用视觉理解和多模态推理方面均展现出最先进的性能。MiMo-VL-7B-RL 在 40 项评估任务中的 35 项上优于 Qwen2.5-VL-7B，并在 OlympiadBench 上获得 59.4 分，超越了参数量高达 780 亿的模型。对于 GUI 定位应用，它在 OSWorld-G 上达到了 56.1 分，树立了新的标准，甚至超越了 Ui-TARS 等专业模型。

2025-08-23 20:24:44 606

原创小米放大招！开源“最强7B视觉大模型”MiMo-VL：小模型干翻百B巨兽，还能一键关闭思考

维度成绩MMMU70.6（图像理解最难测试之一）VideoMME70.8（视频理解标杆）59.4（超越78B参数模型）56.1（超过专用GUI模型）Elo评分开源VLM排名第一（7B~72B）社区热度过去一个月下载超1,600次（RL+SFT）📌一句话概括MiMo-VL 是目前性能最强、推理最稳、体验最佳、生态最全的7B级开源视觉语言模型。维度表现📈 性能开源7B级别最强，多项测试破纪录💬 推理支持可开关的“思维模式”，逻辑清晰🖼️ 视觉理解图像、视频、GUI 全能🧪 实战表现。

2025-08-23 08:11:52 1260

原创字节跳动Seed-OSS-36B-Instruct：开源大模型新标杆，512K长上下文与智能推理的完美融合

Seed-OSS-36B-Instruct是字节跳动Seed团队开发的开源大语言模型，采用Apache-2.0许可协议向全球开发者开放。特性参数参数规模36B注意力机制GQA激活函数SwiGLU层数64词汇量155K上下文长度512K训练数据量12T tokens最引人注目的是其原生支持512,000 tokens的超长上下文窗口，这一数字是Llama3-70B（8K）的64倍，是Qwen3-32B（32K）的16倍，为处理长文档、代码库和复杂对话提供了前所未有的能力。

2025-08-23 07:21:27 1036

原创 to load with `weights_only=True` please check the recommended steps in the following error message.

如果您加载的文件来自不可信来源，此方法可能导致任意代码执行。仅当您自己创建了该文件或完全信任来源时才使用此方法。如果您经常使用Ultralytics YOLO模型，建议使用第二种方法。），因为这可能导致严重的安全漏洞。安全第一，特别是当处理来自外部的模型文件时。，这是为了增强安全性，防止加载不受信任的模型文件时可能出现的代码执行漏洞。此方法仅允许您需要的特定类，同时保持对其他潜在威胁的安全保护。函数的安全性变更有关。在PyTorch 2.6中，：永远不要为来自不可信来源的模型禁用安全功能（

2025-08-22 20:33:53 318

原创 FastTracker：实时准确的视觉跟踪

传统的多目标跟踪(MOT)系统主要设计用于行人跟踪，通常对其他物体类别的泛化能力有限。本文提出了一种能够处理多种物体类型的通用跟踪框架，特别强调在复杂交通场景中的车辆跟踪。所提出的1方法包含两个关键组件：(1)一种能够增强严重遮挡物体身份保持能力的遮挡感知重识别机制；(2)一种利用语义场景先验（如车道方向、人行横道和道路边界）来提高轨迹连续性和准确性的道路结构感知轨迹段优化策略。此外，我们引入了一个新的基准数据集，包含具有帧级跟踪标注的多样化车辆类别，专门用于支持车辆跟踪方法的评估。

2025-08-22 20:15:00 1062

原创 DINOv3

自监督学习有望消除对人工数据标注的需求，使模型能够轻松扩展到大规模数据集和更大规模的架构。由于不针对特定任务或领域进行定制，这种训练范式具有从各种来源学习视觉表示的潜力，能够使用单一算法处理从自然图像到航空图像的广泛数据。本技术报告介绍了DINOv3，这是通过利用简单而有效的策略实现这一愿景的重要里程碑。首先，我们通过精心的数据准备、设计和优化，充分利用了扩展数据集和模型规模的优势。

2025-08-20 18:54:45 1479

原创跟踪不稳定目标：基于外观引导的运动建模实现无人机视频中的鲁棒多目标跟踪

多目标跟踪（MOT）旨在跟踪多个目标，同时在给定视频的帧之间保持一致的身份标识。在无人机（UAV）录制的视频中，频繁的视角变化和复杂的无人机-地面相对运动动力学带来了重大挑战，这通常导致不稳定的亲和力测量和模糊的关联。现有方法通常分别对运动和外观线索进行建模，忽略了它们的时空相互作用，导致次优的跟踪性能。在本工作中，我们提出了AMOT，它通过两个关键组件联合利用外观和运动线索：外观-运动一致性（AMC）矩阵和运动感知轨迹延续（MTC）模块。

2025-08-19 19:45:00 1078 1

原创深度研究系统、方法与应用的综述

本综述研究了快速发展的深度研究系统领域——通过整合大语言模型、高级信息检索和自主推理能力来自动化复杂研究工作流的AI驱动应用。我们分析了自2023年以来出现的80多个商业和非商业实现，包括OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch以及众多开源替代方案。通过全面考察，我们提出了一种新的分层分类法，根据四个基本技术维度对系统进行分类：基础模型与推理引擎、工具利用与环境交互、任务规划与执行控制，以及知识合成与输出生成。我们探讨了这

2025-08-18 22:13:33 1305

原创 DeepSeek-V2：一种强大、经济且高效的混合专家语言模型

我们提出DeepSeek-V2，一种强大的混合专家（MoE）语言模型，具有经济高效的训练和推理特性。该模型总参数量为2360亿，其中每个token激活210亿参数，并支持128K tokens的上下文长度。DeepSeek-V2采用了创新架构，包括多头潜在注意力（MLA）和DeepSeekMoE。 MLA通过将键值（KV）缓存显著压缩为潜在向量，确保了高效的推理性能；而DeepSeekMoE则通过稀疏计算实现了以经济成本训练强大模型。与DeepSeek 67B相比，DeepSeek-V2实现了显著更强的性

2025-08-15 20:00:00 2138

原创深度解析分组查询注意力（GQA）：大模型推理加速的革命性技术

GQA技术的真正价值不仅在于提升推理速度，更在于解决了大模型从实验室到生产环境的关键瓶颈。当Llama 3和Mistral能流畅生成万字长文，背后正是GQA在默默支撑。技术启示：在AI竞赛从"参数规模"转向"工程效率"的今天，“Attention is all you need"已演变为"Efficient Attention is what you deploy”✅ 新项目直接采用GQA架构（Hugging Face已全面支持）✅ 现有MHA模型考虑用5%训练量升级至GQA。

2025-08-15 07:13:27 803

原创 Uptraining的中文翻译

Uptraining是一个组合词，中文翻译如下：

2025-08-14 13:56:17 104

原创 GQA：从多头检查点训练广义多查询Transformer模型

多查询注意力（MQA）仅使用单个键-值头，能大幅加速解码器推理。然而，MQA可能导致质量下降，而且专门为更快的推理训练单独的模型可能并不可取。我们：(1) 提出了一种从现有多头语言模型检查点Uptraining具有MQA的模型的方案，仅需原始预训练计算量的5%；(2) 引入了分组查询注意力（GQA），这是多查询注意力的一种泛化，它使用中间数量（多于一个但少于查询头数量）的键-值头。我们表明，Uptraining的GQA在接近多头注意力质量的同时，速度与MQA相当。

2025-08-13 22:00:08 654

原创快速Transformer解码：一个写头就足够了

Transformer神经序列模型中使用的多头注意力层是一种强大的替代RNN的方法，用于在序列内部和序列之间传递信息。虽然由于序列长度上的并行化，训练这些层通常快速且简单，但增量推理（在这种情况下并行化是不可能的）通常较慢，这是由于反复加载大型"键"和"值"张量所带来的内存带宽成本。我们提出了一种称为多查询注意力的变体，其中键和值在所有不同的注意力"头"之间共享，大大减少了这些张量的大小，从而降低了增量解码的内存带宽需求。

2025-08-13 21:35:55 874

原创多查询注意力(MQA)：让大模型推理飞起来的秘密武器

在了解MQA之前，我们先简单回顾一下Transformer模型中的多头注意力机制(MHA)。MHA是让模型能够同时关注输入序列中不同位置信息的关键技术，它通过多个"注意力头"来捕捉不同的语义关系。而MQA则是MHA的一个精简版本：它保留了多个查询(query)头，但所有查询头共享同一个键(key)和值(value)头。这个看似简单的改动，却带来了惊人的性能提升！MQA代表了大模型高效推理的重要方向——在保持模型能力的同时，大幅降低计算和内存需求。

2025-08-13 21:14:32 758

原创 ImportError: libhccl.so: cannot open shared object file: No such file or directory

注意：您需要有华为昇腾 NPU 硬件才能实际使用这些功能。如果您的服务器没有 NPU 硬件，即使解决了库路径问题，您也无法使用 NPU 加速。在这种情况下，建议使用标准的 PyTorch 安装（CPU 或 CUDA 版本）并修改代码以移除对。文件的位置，这很好！问题在于系统在运行时找不到这个库文件。虽然文件存在于文件系统中，但动态链接器不知道在哪里查找它。，我们告诉系统在哪里可以找到这些必要的库文件。系统会在预定义的路径中搜索这些库，而。要使设置永久生效，将以下内容添加到。不在默认搜索路径中。

2025-08-12 09:50:38 412

原创 ModuleNotFoundError: No module named ‘importlib_metadata‘

安装完成后，请重新运行您的程序，应该可以解决这个ModuleNotFoundError问题。如果仍然遇到问题，可能需要检查您的PyTorch和torch_npu版本是否兼容。这是一个常见的依赖问题，特别是在PyTorch分布式组件中。包（注意安装时使用连字符，但导入时使用下划线）。激活虚拟环境后安装此包即可解决错误。这是搜索结果中确认有效的解决方案。根据错误日志和搜索结果，您遇到了。这个错误是因为您的环境中缺少。

2025-08-12 09:46:45 338

原创从GPT-2到gpt-oss：架构演进分析

在深入讨论架构细节之前，让我们先概览一下图1中所示的两个模型：gpt-oss-20b和gpt-oss-120b。如果您之前看过最近的LLM架构图，或阅读过我之前的《大模型架构比较》文章，您可能会注意到乍看之下没有什么新颖或不寻常的地方。这并不奇怪，因为领先的LLM开发者往往使用相同的基线架构，然后进行较小的调整。这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。

2025-08-12 06:56:49 1503

原创 GPT-5震撼发布！它不会写诗，却让程序员集体沸腾：这才是真正的AGI黎明

GPT-5的真正意义不在于它本身有多强大，而在于它展示了通过工具扩展智能的可行路径。就像人类通过工具超越了生理限制，AI也将通过工具超越模型本身的局限。“一切都始于GPT-5学会使用工具的那一天。有趣的是，文章最后提到：“嗯……Sam两年前的待办事项清单仍未完成……”也许，真正的AGI到来之日，就是Sam的待办事项全部完成之时。但在此之前，让我们拥抱这个工具智能的新时代——毕竟，学会使用工具，才是智能的真正开始。你怎么看GPT-5的"工具思维"？欢迎在评论区分享你的观点！

2025-08-12 06:06:53 805

原创 RuntimeError: Failed to load the backend extension: torch_npu. You can disable extension auto-loadin

根据您之前尝试运行的自注意力机制代码（来自知识库中的内容），这些是标准的 PyTorch 代码，不需要 NPU 支持。是 PyTorch 用于华为昇腾(NPU)处理器的专用后端。当您在没有 NPU 硬件的普通系统上运行代码时，经常会遇到此错误。是最简单有效的解决方案，它会告诉 PyTorch 不要尝试自动加载 NPU 后端扩展。完成上述任一操作后，您应该能够正常运行自注意力机制和其他标准 PyTorch 代码。这个错误表明您的系统尝试加载。

2025-08-11 17:17:47 286

原创最优扩展大型语言模型测试时计算量可能比扩展模型参数更有效

遵循Lightman等人[22]的方法，我们基于基础LLM定义问题难度。具体来说，我们将模型在测试集每个问题上的pass@1率（通过2048个样本估计）划分为五个分位数，分别对应递增的难度等级。我们发现，这种基于模型的难度分箱比MATH数据集中的手工标注难度更能预测测试时计算的有效性。需注意，上述难度评估假设可访问地面真实正确性检查函数，而实际部署时我们无法知晓测试提示的答案。因此，基于难度的计算最优策略需首先评估问题难度，再利用对应策略解决。

2025-08-10 10:44:01 1186

原创理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力

现在，让我们讨论广泛使用的自注意力机制，即缩放点积注意力（scaled dot-product attention），这是transformer架构中不可或缺的一部分。自注意力机制利用三个权重矩阵，分别称为WqW_qWqWkW_kWk和WvW_vWv，这些矩阵在训练过程中作为模型参数进行调整。这些矩阵分别用于将输入投影到序列的查询（query）、键（key）和值（value）分量中。通过权重矩阵WWW与嵌入输入xxx查询序列：对于序列1...T1...T。

2025-08-09 08:01:44 964

原创 YOLO-Count：用于文本到图像生成的可微分目标计数

我们提出的YOLO-Count基于YOLO-World架构[9]，由三个主要组件组成：(1)视觉骨干，(2)视觉-语言路径聚合网络(VLPAN)，以及(3)预测头。图2展示了整体流程并突出了我们的关键架构修改。视觉骨干。YOLO-Count中的视觉骨干遵循YOLOv8l [23]和YOLO-World-L [9]的设计。它包含五个卷积模块(ConvModules)和跨阶段部分层(CSPLayers)阶段。给定输入图像I∈R640×640×3I∈R640×640×3f0f。

2025-08-08 21:35:45 928

原创深度解析：推理大模型如何改变AI格局？四种构建方法与低成本实践指南

想象一下，当孩子问你"2+3等于几"时，你直接回答"5"；但当他们问"为什么2+3=5"时，你需要解释加法的概念。传统大语言模型更像是前者——提供直接答案；而推理模型则是后者——展示思考过程。在技术定义上，推理模型是指能够处理需要复杂、多步骤生成并包含中间步骤的问题的AI系统。❌ 简单问答：“法国的首都是什么？”（不需要推理）✅ 复杂推理：“如果一列火车以每小时60英里的速度行驶3小时，它走了多远？推理大模型代表了AI发展的新方向——从"知道答案"到"理解思考过程"。

2025-08-08 07:04:47 593

原创处理失败: module ‘fitz‘ has no attribute ‘open‘

【代码】处理失败: module ‘fitz‘ has no attribute ‘open‘

2025-08-07 13:55:53 196

原创从DeepSeek-V3到Kimi K2,大型语言模型架构对比

本文系统性梳理了2025年主流开源LLM的架构创新，涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统（MoE）：DeepSeek-V3（671B）、Llama 4 Maverick（400B）、Qwen3（235B）均采用MoE架构，通过激活部分专家（如DeepSeek的9专家/2048隐藏层，Llama 4的2专家/8192隐藏层）平衡计算效率与模型容量。动态路由。

2025-08-07 06:19:35 1199

原创 SOD-YOLO：增强基于YOLO的无人机影像小目标检测

为验证我们提出的SOD-YOLO模型在无人机影像小目标检测中的有效性和鲁棒性，我们在多种场景下开展了广泛实验。评估目标：评估SOD-YOLO在复杂航拍场景中检测小目标和密集目标的能力，并验证其对基线YOLOv8-m模型的改进效果。评估指标：我们主要报告IoU阈值为0.5（[email protected]）和0.5:0.95（[email protected]）的平均精度（mAP），以及数据集定义的小目标检测专项指标。对比基线。

2025-08-06 13:14:38 1473

原创 Qwen-Image技术报告

与传统模型仅优化 photorealism（真实感）或美学质量（“AI风格”）不同，Qwen-Image强调文本与图像的精准对齐——尤其在具有挑战性的文本渲染任务中。我们设想，通过强化基础模型的这一能力，未来交互界面可从纯语言驱动的LUIs（语言用户界面）演变为视语融合的VLUIs（视语用户界面）。当LLMs（大型语言模型）难以传达颜色、空间关系或结构布局等视觉属性时，基于Qwen-Image的VLUI可生成图文融合的丰富图像——实现结构化视觉解释和有效的知识外化，将复杂概念转化为可理解的多模态表达。

2025-08-06 06:44:38 942

原创深入剖析通用目标跟踪：一项综述

通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务，其难点在于复杂的时空动态变化，尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间，为应对这些挑战，研究者提出了多种跟踪范式，包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别，或广泛覆盖多类以追踪进展，但本文对三类方法均进行了全面综述，尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较，分析了各类方法的核心设计原则、创新点及局限性。

2025-08-04 22:22:49 1538

原创 PyCharm安装通义灵码，代码插件

builder。

2025-08-03 12:25:58 647

原创国产AI编程辅助插件分析

随着技术进步，国产工具有望在全球AI编程领域占据更大份额。（注：部分工具需注册账号并登录后使用，建议优先试用免费版本。

2025-08-03 11:55:04 873 1

原创【已解决】WslRegisterDistribution failed with error: 0x80370114

点击启用或关闭Windows功能，然后勾选Windows虚拟机监控程序平台。

2025-08-03 07:30:14 275

原创 SmartCLIP：具有识别保证的模块化视觉-语言对齐

对比语言-图像预训练（Contrastive Language-Image Pre-training，CLIP）[37]已成为计算机视觉和多模态学习中的关键模型，通过对比学习实现了视觉和文本表示对齐方面的最优性能。然而，CLIP在许多图像-文本数据集中存在潜在的信息不对齐问题，并且存在表示纠缠的情况。一方面，像MSCOCO这类数据集中，单个图像的简短描述可能仅涵盖图像中互不重叠的区域，导致模型不确定应保留或忽略哪些视觉特征。

2025-08-02 21:50:50 1115

原创测试时扩散的深度研究助手

由大语言模型（LLMs）驱动的深度研究助手正在迅速发展，然而，在使用通用的测试时扩展算法生成复杂的长篇研究报告时，其性能往往会趋于平稳。受人类研究迭代性的启发，人类研究包括搜索、推理和修订的循环过程，我们提出了测试时扩散深度研究助手（Test-Time Diffusion Deep Researcher，TTD-DR）。这一新框架将研究报告的生成视为一个扩散过程。TTD-DR以初步草稿为起点，这一可更新的框架作为不断演进的基础，引导研究方向。

2025-08-02 17:52:22 964

原创自进化智能体综述：通往人工超级智能之路

大型语言模型（LLMs）在各种任务中展现出了卓越的能力，但本质上仍然是静态的，无法根据新任务、不断演进的知识领域或动态交互环境调整其内部参数。随着大型语言模型越来越多地部署在开放、交互式环境中，这种静态特性已成为关键瓶颈，需要能够实时自适应推理、行动和演化的智能体。这一范式转变——从扩展静态模型到开发自进化智能体——引发了人们对能够从数据、交互和经验中持续学习和适应的架构与方法的日益浓厚的兴趣。

2025-08-02 17:10:19 1476

原创基于Redis自动过期的流处理暂停机制

基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案。防止延时过大的数据影响实时处理自动恢复处理，减少人工干预共享状态，支持分布式部署优化资源使用，提升系统整体效率这种机制不仅适用于视频流处理系统，也可应用于任何需要根据数据延迟动态调整处理策略的场景。

2025-08-02 14:31:51 426

原创 conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正

添加系统变量，右键点击此电脑，再单击属性，打开系统设置界面。然后，点击确定，关闭界面。

2025-08-02 10:24:24 339

原创 Redis 键值对操作详解：Python 实现指南

场景推荐操作替代方案添加小数据SETHSET（对象）添加大数据HSET/MSET分批次添加添加临时数据SETEX删除小数据DELETEUNLINK删除大数据UNLINK无批量操作管道 + MSET/UNLINK单独命令添加操作使用set()添加单个键值对使用mset()批量添加多个键值对使用setex()添加带过期时间的键值对删除操作优先使用unlink()进行删除（尤其大型数据）仅在需要立即释放内存时使用delete()批量删除时结合管道提高效率。

2025-07-29 18:00:39 2088

原创 Qwen3嵌入：通过基础模型推进文本嵌入与重排序

在本研究中，我们推出了Qwen3嵌入（Embedding）系列模型。该系列模型基于Qwen3基础模型构建，在文本嵌入和重排序能力方面相较于前代GTE-Qwen系列实现了显著提升。我们利用Qwen3大语言模型（LLMs）在多语言文本理解与生成方面的强大能力，设计了一种创新的多阶段训练流程，将大规模无监督预训练与高质量数据集上的监督微调相结合。此外，有效的模型融合策略进一步确保了Qwen3嵌入系列模型的鲁棒性和适应性。

2025-07-28 20:15:00 862

原创突破性进化：放弃思考，通义千问Qwen3-235B-A22B-Instruct-2507重塑大模型能力边界

类型：因果语言模型训练阶段：预训练 & 后训练参数数量：总共 235B，激活 22B非嵌入参数数量：234B层数：94 层注意力头数（GQA）：Q 为 64 个，KV 为 4 个专家数量：128 个激活的专家数量：8 个上下文长度：原生支持 262,144注意：该模型仅支持非思考模式，并且不会在其输出中生成块。同时，不再需要指定核心革新亮点全能性能跃迁推理与知识：在MMLU-Pro科学测试中得分83.0（较前代↑7.8分），GPQA专业问答准确率达77.5%

2025-07-24 06:47:45 1243

原创 PhysX：基于物理原理的 3D 资产生成

3D建模正从虚拟向物理领域拓展。现有的3D生成主要强调几何形状和纹理，而忽视了基于物理原理的建模。因此，尽管3D生成模型发展迅速，但合成的3D3D3D资产往往忽略了丰富且重要的物理属性，阻碍了它们在模拟和具身人工智能（AI）等物理领域的实际应用。作为应对这一挑战的初步尝试，我们提出了PhysX，这是一种用于基于物理原理的3D3D3D资产生成的端到端范式。1）为了弥补物理标注3D3D3D数据集的关键空白，我们推出了PhysXNet，这是首个在五个基础维度上系统标注的基于物理原理的3。

2025-07-23 06:55:30 634

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战：使用EMO实现图像分类任务

2023-07-31

OverLoCK实战：使用OverLoCK实现图像分类任务

OverLoCK是一种全新的卷积神经网络（ConvNet）架构，旨在模仿人类视觉系统中的“纵观全局-聚焦细节”（Overview-first-Look-Closely-next）双阶段认知机制。该架构通过引入自上而下的注意机制，结合动态卷积技术，显著提升了模型在图像分类、目标检测和语义分割等视觉任务中的性能。其核心设计包括深层分解策略（Deep-stage Decomposition Strategy, DDS）和上下文混合动态卷积（Context-Mixing Dynamic Convolution, ContMix），以有效建模长距离依赖关系，同时保留局部归纳偏差。实验表明，OverLoCK在多个基准任务中超越了现有的ConvNet和Transformer架构，同时显著降低了计算成本[3][4][9]。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/147011934

2025-05-19

SparX实战：使用SparX实现图像分类任务

SparX是一种新提出的稀疏跨层连接机制，旨在提升视觉Mamba和Transformer网络的性能。该论文由香港大学的俞益洲教授及其研究团队撰写，并将在AAAI 2025会议上发表。论文的主要目标是解决现有视觉模型在跨层特征聚合方面的不足，尤其是在计算复杂度较高的Mamba模型中[5][6][7]。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145376426

2025-01-29

DFFormer实战：使用DFFormer实现图像分类

## 论文信息 **标题**: FFT-based Dynamic Token Mixer for Vision **论文链接**: https://arxiv.org/pdf/2303.03932 ## 创新点本论文提出了一种新的令牌混合器，称为**动态滤波器（Dynamic Filter）**，旨在解决多头自注意力（MHSA）模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图的像素数量增加时，其计算复杂度呈二次增长，导致处理速度缓慢。通过引入基于快速傅里叶变换（FFT）的动态滤波器，论文展示了在保持全局操作能力的同时，显著降低计算复杂度的可能性。链接：https://wanghao.blog.csdn.net/article/details/145368717?spm=1001.2014.3001.5502

2025-01-27

CrossFormer实战：使用CrossFormer实现图像分类任务

CrossFormer是一种新型的视觉Transformer架构，旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互，解决了现有视觉Transformer在处理多尺度特征时的不足。链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145055796?spm=1001.2014.3001.5501

2025-01-12

DilateFormer实战：使用DilateFormer实现图像分类任务

## 创新点 - **多尺度扩张注意力（MSDA）**：通过分析ViTs中全局注意力的斑块交互，发现注意力矩阵在浅层具有局部性和稀疏性。基于此，提出了MSDA，通过在周围稀疏选择的斑块中进行自注意力计算，同时捕获多尺度语义依赖。 - **滑动窗口扩张注意力（SWDA）**：作为MSDA的一部分，SWDA在局部邻域内执行自注意力，进一步利用感受野内的信息。 - **金字塔架构**：采用金字塔架构来发展DilateFormer模型，在浅层阶段堆叠MSDA以捕获低层信息，在深层阶段使用全局多头自注意力以建模高层信息。本文使用DilateFormer模型实现图像分类任务，模型选择dilateformer_tiny，在植物幼苗分类任务ACC达到了89%+。

2024-12-26

Yolo11s的Objects365预训练权重

Yolo11s的Objects365预训练权重，训练了10个epoch，可以用来做预训练模型。

2024-12-06

VOLO实战：使用VOLO实现图像分类任务

本文介绍了一种新颖的视觉前景器（VOLO）主干网络，通过提出前景注意力机制和构建两个阶段的架构，实现了在ImageNet分类任务上的卓越性能。同时，VOLO在语义分割任务上也表现出了出色的性能。VOLO的提出为视觉识别领域带来了新的突破和进展。本文使用VOLO模型实现图像分类任务，模型选择volo_d1，在植物幼苗分类任务ACC达到了85%+。

2024-11-25

DeBiFormer实战：使用DeBiFormer实现图像分类任务

本文介绍的DeBiFormer是一种专为图像分类和密集预测任务设计的新型分层视觉Transformer。通过提出可变形双级路由注意力（DBRA），优化了查询-键-值交互，自适应选择语义相关区域，实现了更高效和有意义的注意力。实验结果表明，DeBiFormer在多个计算机视觉任务上均表现出色，为设计灵活且语义感知的注意力机制提供了见解。本文使用DeBiFormer模型实现图像分类任务，模型选择debi_tiny，在植物幼苗分类任务ACC达到了82%+。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142706712

2024-11-07

NextVit-Demo.zip

2024-10-04

EfficientFormer实战：使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战：使用GCViT实现图像分类任务

GC ViT（全局上下文视觉转换器）是一种创新的深度学习架构，旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合，有效地建模长程和短程空间交互，同时避免了传统方法中的昂贵操作，如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer（ViT）中归纳偏差缺失的问题，并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务（如图像分类、目标检测和语义分割）中，GC ViT均取得了最先进的结果。原文链接：https://blog.csdn.net/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战：使用CAS-ViT实现图像分类任务

CAS-ViT（Convolutional Additive Self-attention Vision Transformer）通过一系列创新，成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器（Convolutional Additive Token Mixer, CATM），这一设计显著降低了计算开销。原文链接：https://blog.csdn.net/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战：使用GroupMamba实现图像分类任务

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面，相比现有方法取得了更优的性能。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战：使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制（EfficientMod）”的新型设计，旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制，该机制通过卷积上下文建模和特征投影层处理输入，并通过逐元素乘法和多层感知机（MLP）块融合特征。为了进一步提升效率，作者设计了EfficientMod块，作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力，同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比，EfficientMod的计算复杂度与图像大小呈线性关系，而不是与标记数量呈立方关系，这使得它在处理大规模图像时更加高效。此外，与现有的高效卷积网络如FocalNet和VAN相比，EfficientMod块更为简单，但保留了它们的主要优点，如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战：使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： ### 1. 强调并优化连接操作（Concatenation）论文首先强调了DenseNet中连接操作（Concatenation）的重要性，并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接（Additive Shortcut）。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码，包含代码和数据集！打开就可以使用！搜集了多个数据集。

2024-06-24

StarNet实战：使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作（Star Operation），这是一种通过元素级乘法融合不同子空间特征的方法，通过元素级乘法（类似于“星”形符号的乘法操作）将不同子空间的特征进行融合，从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理（NLP）和计算机视觉（CV）等多个领域中都得到了成功应用。例如，在自然语言处理中，Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作；在计算机视觉中，FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM（ViL）实战：使用Vision-LSTM（ViL）实现图像分类任务

Vision-LSTM（ViL）架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比，xLSTM引入了指数门控机制，使得模型能够更好地处理长序列数据。同时，xLSTM采用可并行化的矩阵内存结构，提高了模型的计算效率。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战：使用MobileNetV4实现图像分类任务

MobileNetV4，作为新一代移动设备神经网络架构，凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块，实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法，创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性，而Mobile MQA块相较于传统多头注意力，在移动加速器上实现了显著的推理加速。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人