- 博客(1609)
- 资源 (166)
- 收藏
- 关注
原创 MiMo-VL 技术报告
我们开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个强大的视觉语言模型,它们在通用视觉理解和多模态推理方面均展现出最先进的性能。MiMo-VL-7B-RL 在 40 项评估任务中的 35 项上优于 Qwen2.5-VL-7B,并在 OlympiadBench 上获得 59.4 分,超越了参数量高达 780 亿的模型。对于 GUI 定位应用,它在 OSWorld-G 上达到了 56.1 分,树立了新的标准,甚至超越了 Ui-TARS 等专业模型。
2025-08-23 20:24:44
606
原创 小米放大招!开源“最强7B视觉大模型”MiMo-VL:小模型干翻百B巨兽,还能一键关闭思考
维度成绩MMMU70.6(图像理解最难测试之一)VideoMME70.8(视频理解标杆)59.4(超越78B参数模型)56.1(超过专用GUI模型)Elo评分开源VLM排名第一(7B~72B)社区热度过去一个月下载超1,600次(RL+SFT)📌一句话概括MiMo-VL 是目前性能最强、推理最稳、体验最佳、生态最全的7B级开源视觉语言模型。维度表现📈 性能开源7B级别最强,多项测试破纪录💬 推理支持可开关的“思维模式”,逻辑清晰🖼️ 视觉理解图像、视频、GUI 全能🧪 实战表现。
2025-08-23 08:11:52
1260
原创 字节跳动Seed-OSS-36B-Instruct:开源大模型新标杆,512K长上下文与智能推理的完美融合
Seed-OSS-36B-Instruct是字节跳动Seed团队开发的开源大语言模型,采用Apache-2.0许可协议向全球开发者开放。特性参数参数规模36B注意力机制GQA激活函数SwiGLU层数64词汇量155K上下文长度512K训练数据量12T tokens最引人注目的是其原生支持512,000 tokens的超长上下文窗口,这一数字是Llama3-70B(8K)的64倍,是Qwen3-32B(32K)的16倍,为处理长文档、代码库和复杂对话提供了前所未有的能力。
2025-08-23 07:21:27
1036
原创 to load with `weights_only=True` please check the recommended steps in the following error message.
如果您加载的文件来自不可信来源,此方法可能导致任意代码执行。仅当您自己创建了该文件或完全信任来源时才使用此方法。如果您经常使用Ultralytics YOLO模型,建议使用第二种方法。),因为这可能导致严重的安全漏洞。安全第一,特别是当处理来自外部的模型文件时。,这是为了增强安全性,防止加载不受信任的模型文件时可能出现的代码执行漏洞。此方法仅允许您需要的特定类,同时保持对其他潜在威胁的安全保护。函数的安全性变更有关。在PyTorch 2.6中,:永远不要为来自不可信来源的模型禁用安全功能(
2025-08-22 20:33:53
318
原创 FastTracker:实时准确的视觉跟踪
传统的多目标跟踪(MOT)系统主要设计用于行人跟踪,通常对其他物体类别的泛化能力有限。本文提出了一种能够处理多种物体类型的通用跟踪框架,特别强调在复杂交通场景中的车辆跟踪。所提出的1方法包含两个关键组件:(1)一种能够增强严重遮挡物体身份保持能力的遮挡感知重识别机制;(2)一种利用语义场景先验(如车道方向、人行横道和道路边界)来提高轨迹连续性和准确性的道路结构感知轨迹段优化策略。此外,我们引入了一个新的基准数据集,包含具有帧级跟踪标注的多样化车辆类别,专门用于支持车辆跟踪方法的评估。
2025-08-22 20:15:00
1062
原创 DINOv3
自监督学习有望消除对人工数据标注的需求,使模型能够轻松扩展到大规模数据集和更大规模的架构。由于不针对特定任务或领域进行定制,这种训练范式具有从各种来源学习视觉表示的潜力,能够使用单一算法处理从自然图像到航空图像的广泛数据。本技术报告介绍了DINOv3,这是通过利用简单而有效的策略实现这一愿景的重要里程碑。首先,我们通过精心的数据准备、设计和优化,充分利用了扩展数据集和模型规模的优势。
2025-08-20 18:54:45
1479
原创 跟踪不稳定目标:基于外观引导的运动建模实现无人机视频中的鲁棒多目标跟踪
多目标跟踪(MOT)旨在跟踪多个目标,同时在给定视频的帧之间保持一致的身份标识。在无人机(UAV)录制的视频中,频繁的视角变化和复杂的无人机-地面相对运动动力学带来了重大挑战,这通常导致不稳定的亲和力测量和模糊的关联。现有方法通常分别对运动和外观线索进行建模,忽略了它们的时空相互作用,导致次优的跟踪性能。在本工作中,我们提出了AMOT,它通过两个关键组件联合利用外观和运动线索:外观-运动一致性(AMC)矩阵和运动感知轨迹延续(MTC)模块。
2025-08-19 19:45:00
1078
1
原创 深度研究系统、方法与应用的综述
本综述研究了快速发展的深度研究系统领域——通过整合大语言模型、高级信息检索和自主推理能力来自动化复杂研究工作流的AI驱动应用。我们分析了自2023年以来出现的80多个商业和非商业实现,包括OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch以及众多开源替代方案。通过全面考察,我们提出了一种新的分层分类法,根据四个基本技术维度对系统进行分类:基础模型与推理引擎、工具利用与环境交互、任务规划与执行控制,以及知识合成与输出生成。我们探讨了这
2025-08-18 22:13:33
1305
原创 DeepSeek-V2:一种强大、经济且高效的混合专家语言模型
我们提出DeepSeek-V2,一种强大的混合专家(MoE)语言模型,具有经济高效的训练和推理特性。该模型总参数量为2360亿,其中每个token激活210亿参数,并支持128K tokens的上下文长度。DeepSeek-V2采用了创新架构,包括多头潜在注意力(MLA)和DeepSeekMoE。 MLA通过将键值(KV)缓存显著压缩为潜在向量,确保了高效的推理性能; 而DeepSeekMoE则通过稀疏计算实现了以经济成本训练强大模型。与DeepSeek 67B相比,DeepSeek-V2实现了显著更强的性
2025-08-15 20:00:00
2138
原创 深度解析分组查询注意力(GQA):大模型推理加速的革命性技术
GQA技术的真正价值不仅在于提升推理速度,更在于解决了大模型从实验室到生产环境的关键瓶颈。当Llama 3和Mistral能流畅生成万字长文,背后正是GQA在默默支撑。技术启示:在AI竞赛从"参数规模"转向"工程效率"的今天,“Attention is all you need"已演变为"Efficient Attention is what you deploy”✅ 新项目直接采用GQA架构(Hugging Face已全面支持)✅ 现有MHA模型考虑用5%训练量升级至GQA。
2025-08-15 07:13:27
803
原创 GQA:从多头检查点训练广义多查询Transformer模型
多查询注意力(MQA)仅使用单个键-值头,能大幅加速解码器推理。然而,MQA可能导致质量下降,而且专门为更快的推理训练单独的模型可能并不可取。我们:(1) 提出了一种从现有多头语言模型检查点Uptraining具有MQA的模型的方案,仅需原始预训练计算量的5%;(2) 引入了分组查询注意力(GQA),这是多查询注意力的一种泛化,它使用中间数量(多于一个但少于查询头数量)的键-值头。我们表明,Uptraining的GQA在接近多头注意力质量的同时,速度与MQA相当。
2025-08-13 22:00:08
654
原创 快速Transformer解码:一个写头就足够了
Transformer神经序列模型中使用的多头注意力层是一种强大的替代RNN的方法,用于在序列内部和序列之间传递信息。虽然由于序列长度上的并行化,训练这些层通常快速且简单,但增量推理(在这种情况下并行化是不可能的)通常较慢,这是由于反复加载大型"键"和"值"张量所带来的内存带宽成本。我们提出了一种称为多查询注意力的变体,其中键和值在所有不同的注意力"头"之间共享,大大减少了这些张量的大小,从而降低了增量解码的内存带宽需求。
2025-08-13 21:35:55
874
原创 多查询注意力(MQA):让大模型推理飞起来的秘密武器
在了解MQA之前,我们先简单回顾一下Transformer模型中的多头注意力机制(MHA)。MHA是让模型能够同时关注输入序列中不同位置信息的关键技术,它通过多个"注意力头"来捕捉不同的语义关系。而MQA则是MHA的一个精简版本:它保留了多个查询(query)头,但所有查询头共享同一个键(key)和值(value)头。这个看似简单的改动,却带来了惊人的性能提升!MQA代表了大模型高效推理的重要方向——在保持模型能力的同时,大幅降低计算和内存需求。
2025-08-13 21:14:32
758
原创 ImportError: libhccl.so: cannot open shared object file: No such file or directory
注意:您需要有华为昇腾 NPU 硬件才能实际使用这些功能。如果您的服务器没有 NPU 硬件,即使解决了库路径问题,您也无法使用 NPU 加速。在这种情况下,建议使用标准的 PyTorch 安装(CPU 或 CUDA 版本)并修改代码以移除对。文件的位置,这很好!问题在于系统在运行时找不到这个库文件。虽然文件存在于文件系统中,但动态链接器不知道在哪里查找它。,我们告诉系统在哪里可以找到这些必要的库文件。系统会在预定义的路径中搜索这些库,而。要使设置永久生效,将以下内容添加到。不在默认搜索路径中。
2025-08-12 09:50:38
412
原创 ModuleNotFoundError: No module named ‘importlib_metadata‘
安装完成后,请重新运行您的程序,应该可以解决这个ModuleNotFoundError问题。如果仍然遇到问题,可能需要检查您的PyTorch和torch_npu版本是否兼容。这是一个常见的依赖问题,特别是在PyTorch分布式组件中。包(注意安装时使用连字符,但导入时使用下划线)。激活虚拟环境后安装此包即可解决错误。这是搜索结果中确认有效的解决方案。根据错误日志和搜索结果,您遇到了。这个错误是因为您的环境中缺少。
2025-08-12 09:46:45
338
原创 从GPT-2到gpt-oss:架构演进分析
在深入讨论架构细节之前,让我们先概览一下图1中所示的两个模型:gpt-oss-20b和gpt-oss-120b。如果您之前看过最近的LLM架构图,或阅读过我之前的《大模型架构比较》文章,您可能会注意到乍看之下没有什么新颖或不寻常的地方。这并不奇怪,因为领先的LLM开发者往往使用相同的基线架构,然后进行较小的调整。这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。
2025-08-12 06:56:49
1503
原创 GPT-5震撼发布!它不会写诗,却让程序员集体沸腾:这才是真正的AGI黎明
GPT-5的真正意义不在于它本身有多强大,而在于它展示了通过工具扩展智能的可行路径。就像人类通过工具超越了生理限制,AI也将通过工具超越模型本身的局限。“一切都始于GPT-5学会使用工具的那一天。有趣的是,文章最后提到:“嗯……Sam两年前的待办事项清单仍未完成……”也许,真正的AGI到来之日,就是Sam的待办事项全部完成之时。但在此之前,让我们拥抱这个工具智能的新时代——毕竟,学会使用工具,才是智能的真正开始。你怎么看GPT-5的"工具思维"?欢迎在评论区分享你的观点!
2025-08-12 06:06:53
805
原创 RuntimeError: Failed to load the backend extension: torch_npu. You can disable extension auto-loadin
根据您之前尝试运行的自注意力机制代码(来自知识库中的内容),这些是标准的 PyTorch 代码,不需要 NPU 支持。是 PyTorch 用于华为昇腾(NPU)处理器的专用后端。当您在没有 NPU 硬件的普通系统上运行代码时,经常会遇到此错误。是最简单有效的解决方案,它会告诉 PyTorch 不要尝试自动加载 NPU 后端扩展。完成上述任一操作后,您应该能够正常运行自注意力机制和其他标准 PyTorch 代码。这个错误表明您的系统尝试加载。
2025-08-11 17:17:47
286
原创 最优扩展大型语言模型测试时计算量可能比扩展模型参数更有效
遵循Lightman等人[22]的方法,我们基于基础LLM定义问题难度。具体来说,我们将模型在测试集每个问题上的pass@1率(通过2048个样本估计)划分为五个分位数,分别对应递增的难度等级。我们发现,这种基于模型的难度分箱比MATH数据集中的手工标注难度更能预测测试时计算的有效性。需注意,上述难度评估假设可访问地面真实正确性检查函数,而实际部署时我们无法知晓测试提示的答案。因此,基于难度的计算最优策略需首先评估问题难度,再利用对应策略解决。
2025-08-10 10:44:01
1186
原创 理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力
现在,让我们讨论广泛使用的自注意力机制,即缩放点积注意力(scaled dot-product attention),这是transformer架构中不可或缺的一部分。自注意力机制利用三个权重矩阵,分别称为WqW_qWqWkW_kWk和WvW_vWv,这些矩阵在训练过程中作为模型参数进行调整。这些矩阵分别用于将输入投影到序列的查询(query)、键(key)和值(value)分量中。通过权重矩阵WWW与嵌入输入xxx查询序列:对于序列1...T1...T。
2025-08-09 08:01:44
964
原创 YOLO-Count:用于文本到图像生成的可微分目标计数
我们提出的YOLO-Count基于YOLO-World架构[9],由三个主要组件组成:(1)视觉骨干,(2)视觉-语言路径聚合网络(VLPAN),以及(3)预测头。图2展示了整体流程并突出了我们的关键架构修改。视觉骨干。YOLO-Count中的视觉骨干遵循YOLOv8l [23]和YOLO-World-L [9]的设计。它包含五个卷积模块(ConvModules)和跨阶段部分层(CSPLayers)阶段。给定输入图像I∈R640×640×3I∈R640×640×3f0f。
2025-08-08 21:35:45
928
原创 深度解析:推理大模型如何改变AI格局?四种构建方法与低成本实践指南
想象一下,当孩子问你"2+3等于几"时,你直接回答"5";但当他们问"为什么2+3=5"时,你需要解释加法的概念。传统大语言模型更像是前者——提供直接答案;而推理模型则是后者——展示思考过程。在技术定义上,推理模型是指能够处理需要复杂、多步骤生成并包含中间步骤的问题的AI系统。❌ 简单问答:“法国的首都是什么?”(不需要推理)✅ 复杂推理:“如果一列火车以每小时60英里的速度行驶3小时,它走了多远?推理大模型代表了AI发展的新方向——从"知道答案"到"理解思考过程"。
2025-08-08 07:04:47
593
原创 处理失败: module ‘fitz‘ has no attribute ‘open‘
【代码】处理失败: module ‘fitz‘ has no attribute ‘open‘
2025-08-07 13:55:53
196
原创 从DeepSeek-V3到Kimi K2,大型语言模型架构对比
本文系统性梳理了2025年主流开源LLM的架构创新,涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统(MoE):DeepSeek-V3(671B)、Llama 4 Maverick(400B)、Qwen3(235B)均采用MoE架构,通过激活部分专家(如DeepSeek的9专家/2048隐藏层,Llama 4的2专家/8192隐藏层)平衡计算效率与模型容量。动态路由。
2025-08-07 06:19:35
1199
原创 SOD-YOLO:增强基于YOLO的无人机影像小目标检测
为验证我们提出的SOD-YOLO模型在无人机影像小目标检测中的有效性和鲁棒性,我们在多种场景下开展了广泛实验。评估目标:评估SOD-YOLO在复杂航拍场景中检测小目标和密集目标的能力,并验证其对基线YOLOv8-m模型的改进效果。评估指标:我们主要报告IoU阈值为0.5([email protected])和0.5:0.95([email protected])的平均精度(mAP),以及数据集定义的小目标检测专项指标。对比基线。
2025-08-06 13:14:38
1473
原创 Qwen-Image技术报告
与传统模型仅优化 photorealism(真实感)或美学质量(“AI风格”)不同,Qwen-Image强调文本与图像的精准对齐——尤其在具有挑战性的文本渲染任务中。我们设想,通过强化基础模型的这一能力,未来交互界面可从纯语言驱动的LUIs(语言用户界面)演变为视语融合的VLUIs(视语用户界面)。当LLMs(大型语言模型)难以传达颜色、空间关系或结构布局等视觉属性时,基于Qwen-Image的VLUI可生成图文融合的丰富图像——实现结构化视觉解释和有效的知识外化,将复杂概念转化为可理解的多模态表达。
2025-08-06 06:44:38
942
原创 深入剖析通用目标跟踪:一项综述
通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务,其难点在于复杂的时空动态变化,尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间,为应对这些挑战,研究者提出了多种跟踪范式,包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别,或广泛覆盖多类以追踪进展,但本文对三类方法均进行了全面综述,尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较,分析了各类方法的核心设计原则、创新点及局限性。
2025-08-04 22:22:49
1538
原创 国产AI编程辅助插件分析
随着技术进步,国产工具有望在全球AI编程领域占据更大份额。(注:部分工具需注册账号并登录后使用,建议优先试用免费版本。
2025-08-03 11:55:04
873
1
原创 【已解决】WslRegisterDistribution failed with error: 0x80370114
点击启用或关闭Windows功能,然后勾选Windows虚拟机监控程序平台。
2025-08-03 07:30:14
275
原创 SmartCLIP:具有识别保证的模块化视觉-语言对齐
对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)[37]已成为计算机视觉和多模态学习中的关键模型,通过对比学习实现了视觉和文本表示对齐方面的最优性能。然而,CLIP在许多图像-文本数据集中存在潜在的信息不对齐问题,并且存在表示纠缠的情况。一方面,像MSCOCO这类数据集中,单个图像的简短描述可能仅涵盖图像中互不重叠的区域,导致模型不确定应保留或忽略哪些视觉特征。
2025-08-02 21:50:50
1115
原创 测试时扩散的深度研究助手
由大语言模型(LLMs)驱动的深度研究助手正在迅速发展,然而,在使用通用的测试时扩展算法生成复杂的长篇研究报告时,其性能往往会趋于平稳。受人类研究迭代性的启发,人类研究包括搜索、推理和修订的循环过程,我们提出了测试时扩散深度研究助手(Test-Time Diffusion Deep Researcher,TTD-DR)。这一新框架将研究报告的生成视为一个扩散过程。TTD-DR以初步草稿为起点,这一可更新的框架作为不断演进的基础,引导研究方向。
2025-08-02 17:52:22
964
原创 自进化智能体综述:通往人工超级智能之路
大型语言模型(LLMs)在各种任务中展现出了卓越的能力,但本质上仍然是静态的,无法根据新任务、不断演进的知识领域或动态交互环境调整其内部参数。随着大型语言模型越来越多地部署在开放、交互式环境中,这种静态特性已成为关键瓶颈,需要能够实时自适应推理、行动和演化的智能体。这一范式转变——从扩展静态模型到开发自进化智能体——引发了人们对能够从数据、交互和经验中持续学习和适应的架构与方法的日益浓厚的兴趣。
2025-08-02 17:10:19
1476
原创 基于Redis自动过期的流处理暂停机制
基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案。防止延时过大的数据影响实时处理自动恢复处理,减少人工干预共享状态,支持分布式部署优化资源使用,提升系统整体效率这种机制不仅适用于视频流处理系统,也可应用于任何需要根据数据延迟动态调整处理策略的场景。
2025-08-02 14:31:51
426
原创 conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正
添加系统变量,右键点击此电脑,再单击属性,打开系统设置界面。然后,点击确定,关闭界面。
2025-08-02 10:24:24
339
原创 Redis 键值对操作详解:Python 实现指南
场景推荐操作替代方案添加小数据SETHSET(对象)添加大数据HSET/MSET分批次添加添加临时数据SETEX删除小数据DELETEUNLINK删除大数据UNLINK无批量操作管道 + MSET/UNLINK单独命令添加操作使用set()添加单个键值对使用mset()批量添加多个键值对使用setex()添加带过期时间的键值对删除操作优先使用unlink()进行删除(尤其大型数据)仅在需要立即释放内存时使用delete()批量删除时结合管道提高效率。
2025-07-29 18:00:39
2088
原创 Qwen3嵌入:通过基础模型推进文本嵌入与重排序
在本研究中,我们推出了Qwen3嵌入(Embedding)系列模型。该系列模型基于Qwen3基础模型构建,在文本嵌入和重排序能力方面相较于前代GTE-Qwen系列实现了显著提升。我们利用Qwen3大语言模型(LLMs)在多语言文本理解与生成方面的强大能力,设计了一种创新的多阶段训练流程,将大规模无监督预训练与高质量数据集上的监督微调相结合。此外,有效的模型融合策略进一步确保了Qwen3嵌入系列模型的鲁棒性和适应性。
2025-07-28 20:15:00
862
原创 突破性进化:放弃思考,通义千问Qwen3-235B-A22B-Instruct-2507重塑大模型能力边界
类型:因果语言模型训练阶段:预训练 & 后训练参数数量:总共 235B,激活 22B非嵌入参数数量:234B层数:94 层注意力头数(GQA):Q 为 64 个,KV 为 4 个专家数量:128 个激活的专家数量:8 个上下文长度:原生支持 262,144注意:该模型仅支持非思考模式,并且不会在其输出中生成 块。同时,不再需要指定核心革新亮点全能性能跃迁推理与知识:在MMLU-Pro科学测试中得分83.0(较前代↑7.8分),GPQA专业问答准确率达77.5%
2025-07-24 06:47:45
1243
原创 PhysX:基于物理原理的 3D 资产生成
3D建模正从虚拟向物理领域拓展。现有的3D生成主要强调几何形状和纹理,而忽视了基于物理原理的建模。因此,尽管3D生成模型发展迅速,但合成的3D3D3D资产往往忽略了丰富且重要的物理属性,阻碍了它们在模拟和具身人工智能(AI)等物理领域的实际应用。作为应对这一挑战的初步尝试,我们提出了PhysX,这是一种用于基于物理原理的3D3D3D资产生成的端到端范式。1)为了弥补物理标注3D3D3D数据集的关键空白,我们推出了PhysXNet,这是首个在五个基础维度上系统标注的基于物理原理的3。
2025-07-23 06:55:30
634
Vim实战:使用Vim实现图像分类任务
2024-01-30
Hiera-MAE-Demo.zip
2024-03-05
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
OverLoCK实战:使用OverLoCK实现图像分类任务
2025-05-19
SparX实战:使用SparX实现图像分类任务
2025-01-29
DFFormer实战:使用DFFormer实现图像分类
2025-01-27
CrossFormer实战:使用CrossFormer实现图像分类任务
2025-01-12
DilateFormer实战:使用DilateFormer实现图像分类任务
2024-12-26
VOLO实战:使用VOLO实现图像分类任务
2024-11-25
DeBiFormer实战:使用DeBiFormer实现图像分类任务
2024-11-07
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务
2024-09-19
GCViT实战:使用GCViT实现图像分类任务
2024-09-02
CAS-ViT实战:使用CAS-ViT实现图像分类任务
2024-08-22
GroupMamba实战:使用GroupMamba实现图像分类任务
2024-07-31
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人