Amusi（CVer）-CSDN博客

原创计算机视觉的学习资料（更新中）

计算机视觉（Computer Vision）：https://en.wikipedia.org/wiki/Computer_vision计算视觉相关条目：Outline of computer vision Category:Computer vision经典书籍《Multiple View Geometry in Computer Vision Second Edition》计算机视觉圣经全...

2018-01-23 21:09:03 3733 1

转载太刚了！发现审稿人抄袭后，作者一路闹到 Nature，直言：惹到我你算是踢到钢板了

这篇评审意见违背了学术评审基本原则，与评审者所展现出的学识有限，水平不足以承担如此严肃的学术评议工作相比，其评审态度之傲慢、判断之武断、标准之主观，让人叹为观止。就像米科瓦伊的研究指出的那样，这种充满恶意、不负责任的同行评审行为的确只是冰山一角，而当恶意被毫无管束地释放时，「敷衍」甚至只是最简单、最软弱的一种手段。面对这份「不同意答辩」的评审意见，吕教授逐条逐句地进行了分析与反驳，有理有据地指出了这些意见在学理性上根本站不住脚，通篇充斥着审稿人的外行与傲慢。好像一拳打在棉花垛上，愤怒又无力。

2025-07-27 23:59:44

转载 Hinton在中国的首次线下对话

2016年，周教授带领团队在国际上首次提出与下游任务无关的自注意力与多头机制等表征新机理与新方法，奠定了Transformer架构的理论基础之一，推动通用人工智能、语言大模型表征新进展，是实现生成式AI的重要里程碑。通常，当你抱持这种想法并开始研究自己的方法时，最终你可能会发现大家那样做是有原因的，而你的方法是错的。当你形成关于这些词的理解时，你常常取一个平均化的概念，认为水平和垂直差不多，但这完全是错的。所以这并非一个真正的科学问题，而是从一个错误的心理状态模型出发导致的问题。，这是我们都想向您学习的。

2025-07-27 23:59:44 2

转载爆笑！清华食堂菜单像论文？网友：差点把价格看成影响因子…

，反而会让人很多人害怕，这能吃吗？美国有线电视新闻网（CNN）刊发的一篇探讨中国菜名英语翻译的文章中，多年来专注研究中餐的英国美食作家扶霞·邓洛普（Fuchsia Dunlop）提到，尽管现在翻译软件进步不少，但她还是会遇到一些令人发笑的误译。包菜被拆分成了单独的两个字，“包”翻译成“handbag”（手提包），“菜”则对应为“food”（食物）。人家食堂可能是就出一道“创意菜”，而下面这位选手完全是把“特别”融入了日常，那创意菜色是一道接一道。混搭潮流风，“大胆撞色”的菜品，“脑洞大开”的搭配。

2025-07-26 23:59:56 12

转载 CVPR 2025 | AnomalyNCD：工业异常分类模型，刷新SOTA！

针对上述业界迫切需求及当前技术瓶颈，华中科技大学慢工团队联合精测电子，创新性的提出了AnomalyNCD，该方法采用自监督训练的方式对缺陷表征和参数化分类器进行学习，摆脱了训练过程对标注样本的依赖，实现了高精度工业缺陷自主类别划分，该方法兼具全监督学习和聚类方法的优势，同时规避了他们面向工业缺陷数据时的局限性，应用潜力巨大。柔性生产已成为业界主流，产线生产的产品变化快，随时会出现新型缺陷，缺陷样本搜集难，人工标注成本高，使用监督式的参数化分类器进行分类，难以适应产线的快速迭代需求。

2025-07-26 23:59:56 22

转载 ICCV 2025 Highlight | 浙大提出MaGS：统一动态重建与物理仿真三维表示

MaGS 框架的核心是创建一种创新的“网格吸附高斯（Mesh-adsorbed Gaussian）”混合表示，它巧妙地结合了三维高斯泼溅（3DGS）的渲染灵活性与三角网格（Mesh）的结构化特性。然后，将这个新的被编辑过的网格作为引导网格，再次输入到学会了变形规律的网络中，即可渲染出具有同样高保真度纹理和外观的仿真结果。MaGS 的创新之处就在于，它不像传统方法那样用胶水把“皮肤”粘死在“骨骼”上，而是让“皮肤”能够像真实生物一样，在“肌肉”和“骨骼”运动时，进行合理且自然的微小滑动和调整。

2025-07-25 23:59:33 7

转载 ICML史上首次！中国内地高校教授出任董事！北大林宙辰、上交严骏驰入选

他还多次担任CVPR、ICCV、NIPS/NeurIPS、ICML、IJCAI、AAAI和ICLR的资深领域主席、领域主席，曾任IEEE T. PAMI编委、ICPR 2022共同程序主席，现任IJCV、Optimization Methods and Software、自动化学报编委。其主要研究领域涵盖机器学习与统计方法的创新，以及大规模计算系统与架构的开发，旨在解决人工、生物及社会系统中涉及高维、多模态及动态可能世界的自动化学习、推理与决策问题。其中，3260篇论文被接收，录用率为26.9%。

2025-07-25 23:59:33 30

转载 AAAI 2026 投稿量破22000！投稿群成立！还有ICASSP 2026投稿群！

CVer小助手会拉你进入 ICASSP 2026 投稿交流群！CVer小助手会拉你进入ACM MM 2025 开会交流群！CVer小助手会拉你进入 AAAI 2026 投稿交流群！CVer小助手会拉你进入 NIPS 2025 投稿交流群！CVer小助手会拉你进入ICCV 2025 开会交流群！扫码添加微信，小助手会拉你进MICCAI 2025开会群。扫码添加微信，小助手会拉你进AAAI 2026交流群。扫码添加微信，小助手会拉你进NIPS 2025交流群。

2025-07-25 16:35:42 31

转载实验室3篇论文被ICCV 2025录用

我们借助大模型的知识对多物体草图的各个物体进行初步运动规划，然后通过运动修正网络修正物体级别的运动以及建模物体内部的运动，最后采用分而治之的思想，将复杂的多物体运动进行拆解并逐一优化。具体而言，给定一个待配乐的短视频，MGSV旨在从乐曲库中检索到与之最为匹配的乐曲，并通过时间定位，自动剪辑与视频时长一致的音乐片段。在相关领域高水平期刊会议发表论文六十余篇，专利多项，主持国家自然科学基金面上、北京市自然科基金面上等多个国家级、省部级项目，担任NIPS，AAAI，ACM-MM等多个顶级期刊会议的审稿人。

2025-07-23 13:11:23 61

原创李飞飞押宝的Agent，被这个公司做出来了

CodeAgents 是一个新颖的多智能体推理框架，将多智能体问题求解编码为结构化的伪代码，可以在系统中实现结构化、高效的token规划，在可解释性、模块化、多智能体协同、token 效率等方面带来了显著创新。快速生成专业级别的报告、演示文稿、邮件、计划书等内容，支持多种格式选择（ PPT、PDF、Markdown 等）与结构化大纲。在智能体（Agent）领域上不断积累的成果，对于研究多智能体的研究员/开发者具有很大的参考价值，为商业与研究领域构建大型多智能体系统提供了更高的实用性、经济性和可扩展性。

2025-07-23 13:11:23 831

转载重塑注意力机制！GTA登场：显著提升模型性能与计算效率

GTA 持续展现出其独有的内存优势，其 KV 缓存大小仅为 MHA 的 12.5%（具体为 320 维度对比 MHA 的 2560 维度），即使在采用更小缓存（例如 192 维度，仅为 MHA 的 7.5%）的情况下，GTA 也能获得可比拟的性能表现，充分印证了其在内存效率与性能之间取得的完美平衡。实验结果令人信服地表明，GTA 在大幅度提升计算效率和内存利用率的同时，不仅成功保持了，甚至在某些关键指标上超越了现有主流注意力机制的模型性能，展现出其强大的实用价值和广阔的应用前景。首当其冲的是计算冗余问题。

2025-07-23 13:11:23 59

转载 ICML 2025 何恺明团队提出：高度压缩的Tokenizer可直接用于图像生成

这篇由麻省理工学院和Meta FAIR的Beyer等人撰写的论文挑战了这一范式，通过证明高度压缩的一维标记器无需单独训练的生成模型即可生成图像。这项研究基于TiTok（一维标记器）架构，该架构将图像表示为仅32个离散标记的序列——与通常生成数百或数千个以空间网格排列的标记的传统二维标记器相比，这是一个极高的压缩比。传统的二维标记器，如VQGAN中使用的，会生成空间排列的标记网格，从而保留局部图像结构。通过展示高度压缩的标记器具有固有的生成能力，该研究为高效、灵活的图像生成系统提出了新的方向。

2025-07-22 13:06:09 32

转载广西大学原校长调离广西，重回清华大学担任教授

澎湃新闻｜记者钟煜豪。

2025-07-22 13:06:09 49

转载香港理工大学王淑君教授团队招聘RA研究助理

香港理工大学（The Hong Kong Polytechnic University，简称 PolyU）是一所享有国际声誉的研究型大学，QS 世界大学排名全球第 65 位（2024），工程与技术、计算机科学、生物医学工程等学科在亚洲乃至全球均具有领先地位。参与开发面向精准医疗、科学发现、临床决策的大模型 Agent，提升其指令理解、规划推理、知识增强等能力。相关的机器学习算法开发，涉及质谱测序、scRNA-seq、蛋白质相互作用、亲和力预测、单细胞反应等。

2025-07-21 13:05:22 49

转载超越O4-mini！中科院提出GThinker：多模态大模型终于学会回头「看」

针对选择题、数学题等常见任务类型，分别采用精确匹配、Math-Verify 工具校验的方式计算奖励，对于通用场景下常见的开放式简答题，通过加入格式化响应让模型回答归纳到短语或单词的形式，以应用精确匹配的计算方式，从而确保了奖励信号的准确性和进一步拓展支持任务的多样性。：相较于 GRPO，DAPO 采用动态采样的方式，保证 batch 样本的有效性，并应用无 KL 和 clip higher 等策略，更适用于长链思考和探索，使模型学会在不同场景下选择最优推理方式。的开源模型，在学术榜单上进行测试。

2025-07-21 13:05:22 37

转载顶刊TPAMI 2025！首个统一图像与视频的领域自适应语义分割框架QuadMix：刷新多项基准性能！

请注意，子图 (b)、(d) 和 (e) 中的点数相同。(d) 展示了进一步的跨域混合路径 S→(T→T) 与 T→(S→S)，即 QuadMix 后的结果。与现有方法相比（存在如域内不连续性，特征泛化性差，以及特征分布不一致问题），我们提出的 QuadMix 方法在空间（时间）维度的像素级与特征级上，同时对域内混合和跨域混合进行了泛化与增强。(ii) 图 (b)：光流引导的时空特征聚合模块将跨域视频特征压缩至一个紧凑的类别感知空间中，有效最小化类内差异，并提升类间判别能力，从而增强目标域的语义表征能力。

2025-07-21 13:05:22 37

转载 ICCV 2025 | StreamFormer：视频理解表征学习的转型之路

在不同粒度的任务对齐中，StreamFormer使用冻结的SigLIP Text Encoder来桥接不同的任务的语义空间，使得即使任务之间的标注各不相同，也都能够通过Text Encoder的统一编码，对齐到同一个语义空间。的高质量人工标注、多粒度视频数据集来训练模型，包含动作识别（AR）、视频文本检索（TVR）、时序动作定位（TAL）、自然语言动作定位（TVG）、视频目标分割（VOS）、指代目标分割（RVOS）任务，同时涵盖闭集与开放词汇任务，数据总量约1M。训练数据集的详细信息如表1所示。

2025-07-20 18:35:47 69

转载 ACM MM 2025 | EventVAD：视频异常检测新SOTA

来自北京大学，清华大学的研究团队联手京东（JD.com）在 ACM MM 2025 发表了一种以事件为中心低成本高效的 Training-Free 视频异常检测框架 EventVAD，论文第一作者邵轶骅目前为北京大学学术访问学生，项目负责人为来自京东（JD.com）的算法研究员马傲，目前代码和数据已全面开源。受此启发，如上图所示，EventVAD 通过将长视频分割为短事件片段，增强 MLLMs 对视频的时序一致性理解，同时引入动态图模型捕捉帧间关联，最终在减少参数的情况下实现了更高精度的异常检测。

2025-07-20 18:35:47 158

转载 AI新赛事！遥感图像分类、检测、分割和跟踪等方向！2025“东方慧眼杯”遥感算法大赛火热打榜中

是一家专注于智能空天信息运营的高新技术企业，公司垂直整合空天信息全产业链，战略参与卫星研制，以海上和陆地相结合的火箭发射能力为支撑，实现星座的快速组网。遥感影像智能处理算法大赛是由国家自然科学基金委员会信息科学部、国际摄影测量与遥感学会支持，“空间信息网络基础理论与关键技术”重大研究计划指导专家组主办的系列赛事，旨在“以赛促创”，推动人工智能技术在遥感影像处理及应用领域的创新发展，为实现空间信息处理与应用能力的大幅提升提供支撑，目前已成功举办八届，吸引了全球开发者与研究人员的踊跃参与。

2025-07-20 18:35:47 22

转载提供“研究生情侣寝室”？校方最新回应

通知显示，为改善研究生住宿条件，经学校批准，今年可为第一届研究生提供两种住宿标准：校内酒店式公寓两人间和四人间公寓。工作人员明确否认了“研究生情侣寝室”的说法，称其“属于谣言”“不可能，这怎么可能是情侣间？据悉，推出“夫妻宿舍”不是鼓励学生早婚，而是对学生夫妻的一种服务举措，提供更加便捷和人性化的服务，充满了学校对学子的人文关怀。该工作人员强调，学校对研究生的住宿管理与本科生是一致的，不允许男女混住。据悉，一开始，这个福利政策是针对夫妻双博士，随着校内联姻增多的新情况，现。留言跟我们分享分享吧~

2025-07-20 18:35:47 19

转载再见了，2年制硕士！

随着研究生教育分类培养改革的深化，学术型硕士（学硕）与专业型硕士（专硕）因培养目标、规格要求等本质差异，在学制安排上逐渐呈现出明显的分化态势。在研究生培养模式日益多元化的今天，各校也形成了差异化的培养体系：一方面保持着学硕3年、专硕2至2.5年的传统框架，另一方面也涌现出了。2009年，教育部发布《教育部关于做好全日制硕士专业学位研究生培养工作的若干意见》，其中明确提到专业学位研究生的。从“专硕2年、学硕3年”的泾渭分明，到如今越来越多高校将专硕学制延长至3年，逐渐实现学硕与专硕的学制统一，

2025-07-20 00:00:09 125

转载 ICCV 2025｜美团&北大提出DisTime：让大模型理解时间！仅需超轻量时间编解码器

需要注意的是，VTimeLLM 依赖于 100 帧的输入，而我们的方法使用的输入帧数更少，其中 DisTime-InternVL 使用 16 帧，DisTime-LLaVAOV 使用 32 帧。即便存在一些时间相关的视频数据集（VTimeLLM [15], InternVid-MR [11], and Momentor [34]），它们往往在时间标注的精细度上不够，无法提供足够细粒度的事件起止时间信息，难以满足 Video-LLMs 进行精确时间定位的需求。，以提升它们在时间敏感任务上的表现。

2025-07-20 00:00:09 108

转载 Apple刚刚发布：基础模型技术报告

PT-MoE 架构示意图。2）一种可扩展的云端模型，它结合了新型并行轨道混合专家 (PT-MoE) Transformer 和交错的全局 - 局部注意力，以便在苹果的私有云计算平台上进行有效推理。在报告中，苹果详细介绍了训练新一代模型所用的数据、模型架构、训练方案、优化推理技术手段，以及与同类模型对比的评估结果。在技术报告中，苹果还介绍了全新推出的 Swift 核心的基础模型框架，其中集成了引导式生成、约束式工具调用和 LoRA 适配器微调三大功能模块，开发者仅需几行代码即可轻松实现这些功能的集成。

2025-07-20 00:00:09 107

转载 ChatGPT Agent重磅发布！

并且为了防止滥用，还禁用了。在手机端，华为、小米、OPPO、vivo和荣耀等等在内的公司，都在试水Agent，让AI自动帮你完成订咖啡、接推销电话——虽然那边也是AI打的，以及更多之前需要人自己“想”和“干”才能完成的工作。如果只是“想”的层面，具体到撰写分析研究报告的Agent就更多了，海外有OpenAI、Google和Perplexity，国内则有秘塔、Kimi等等。之前，通用Agent们只敢自称“实习生”，但OpenAI在自研底层模型能力的底气下，几乎就把“实习生”变成了“大秘书”。

2025-07-18 23:59:52 84

转载 ICCV 2025｜全新注意力机制！中科院提出MALA：幅值感知线性注意力

具体来讲，如图 2 所示，对于固定方向，随着 Query 的幅值增加，Softmax Attention 中的 Attention Score 分布变得越来越尖峰 (spiky)，把更多的注意力集中在 Attention Score 原本就比较高的 Key 上面。的大小的增加，MALA 更多地关注那些原本就具有更高 Attention Score 的 Key，更少地关注那些原本就具有更低 Attention Score的 Key，这种行为类似于 Softmax Attention。呈现线性的计算复杂度。

2025-07-18 23:59:52 103

转载 ICML 2025 杰出论文出炉！南京大学研究者上榜！

为了解决这一问题，他们主张建立健全的国际版权体系，并实施集体许可制度，以确保使用数据训练人工智能模型的公平补偿机制，强烈建议建立一个以人为中心的全球人工智能治理框架，以促进共享繁荣和经济公正，同时减少技术债务。基于机器学习的预测系统在高风险场景中的应用日益广泛，了解此类预测模型部署后的表现至关重要。与需要创造性、远见性思维飞跃的现实任务类似，他们的任务需要一个隐式的、开放式的随机规划步骤，该步骤要么（a）发现抽象知识图中的新联系（如文字游戏、类比或研究），要么（b）构建新模式（如设计数学问题或新蛋白质）。

2025-07-16 23:59:37 86

转载 ICML 2025｜刷新无监督异常检测上限！CostFilter-AD：首个即插即用的代价滤波用于异常检测范式

(iv) 最后，引入类别感知适配器，以应对类别不平衡问题，并提升模型对多类异常的同时检测能力。但一个悄然被忽视的难题也在同步放大：当前最先进的检测模型，无论是基于图像重建的 Diffusion/UNet/ViT，还是基于特征对比的 DINO/ViT，在生成异常图（anomaly map）时几乎都隐含了一个过程：匹配（matching）。通过集成至现有方法中，我们的方法能够有效缓解匹配噪声问题（例如：PCB2 中的漏检、Pill 中的误检，以及 Carpet 中的模糊边界），显著提升异常检测性能。

2025-07-16 23:59:37 49

转载高校明确：学硕，全部读博！

其中，硕博连读占比约35%（部分“双一流”高校可达50%），本科直博占比约12.5%，普通招考（硕士毕业后考博）占比约52.5%。从兴趣引导、课程重构到革新评价标准，哈工大全方位支持，让学生早进入“博士状态”，在大科学、大项目、大系统实践中成长。国科大依托“基础与前沿交叉学科贯通培养工程”，真正实现“去内卷化竞争”的教育改革目标，打造“在科研高原上培育创新高峰”的特色化人才培养路径。当2条培养路径向外分散、延伸和深入，发展至今，学硕的培养路径逐渐向博士阶段转移，直博/硕博连读的学生成为学术人才的主要来源。

2025-07-16 23:59:37 158

转载 72小时碾压99%调参侠！BAT导师私授Transformer源码+顶会论文密训，手慢无！

期刊编辑1v1诊断论文，精准预判发表几率，定制高效修订方案——从返修指导到录用保障，全程护航您的学术成果。最终选择了最优质的精英导师团队，将全程护航您的成果交付——从文献攻坚到论文录用，拒绝任何形式的责任缺位。，涵盖SCI 1-4区期刊、中文核心期刊（CSSCI/CSCD）、EI期刊等，为学员开辟。只要掌握了他们的套路、精髓，多练习，执行到位，科研小白也能发出顶会文章。——从第一篇论文的录用通知，到第一份年薪30万+的录用函，全程为你护航。——缺口即机遇，Transformer就是你的入场券！

2025-07-16 23:59:37 18

转载突发！Jason Wei被曝加入Meta！扎克伯格这次真挖到OpenAI大动脉了

但更多的是对OpenAI的工作模式进行了反思，肯定了其工作模式中很少有繁文缛节的务实精神，但也从人员到技术细数了OpenAI内部的诸多不足。在此之前，面对Meta的挖人攻势，OpenAI CEO还在内部PUA，说真正TOP的都还在，只不过有些“名单靠后”的人，“唯利是图”。在去年o1的“网友见面会”中，坐第一排C位的就是Jason Wei，他的旁边是o1的另一名关键人物赵盛佳，现在也被小扎“收入囊中”。Meta超级智能实验室为顶尖AI人才提供超乎想象的强大支持——直接向小扎汇报，并且最强GPU无上限随！

2025-07-16 18:00:55 49

转载 CVPR 2025 | 超越DiT！纯卷积DiC：3x3卷积实现SOTA性能！

其次，通过实验确定了最佳的注入位置，让条件信息在卷积块的中间层介入，以最高效地调制特征。通过编码器中的下采样和解码器中的上采样，模型可以在更高层级用同样的 3x3 卷积核覆盖更广的原始图像区域，从而有效弥补了感受野不足的问题。实验表明，在 512x512 分辨率下，DiC-XL 模型可以用比 DiT-XL/2 更少的计算量，远超后者的速度，达到更好的生成效果。，一个纯卷积的扩散模型，不仅在性能上超越了广受欢迎的 Diffusion Transformer (DiT)，更在推理速度上实现了惊人的提升。

2025-07-15 13:05:30 205

转载 ICCV 2025 满分论文！MTU3D：统一空间理解与主动探索

场景中构建数据：其中，真实轨迹主要来源于 ScanNet 场景的问答与指令任务数据，这些数据包含丰富的视觉-语言对齐信息，有助于提升模型在复杂环境中的语义落地能力。，实现自然语言与真实物理环境的对齐（grounding）。这一工作的出现，将 “理解” 和 “探索” 结合在一起，让 AI 像人一样，一边探索环境，一边理解指令，逐步建立起对周围世界的认知。在数据构建方面，作者提出了一种虚实结合的策略，融合了来自真实 RGB-D 扫描数据与虚拟仿真环境的导航轨迹，以综合提升模型的视觉理解与探索能力。

2025-07-15 13:05:30 128

转载无痛涨点！150个开源即插即用模块

本文提出 WTConv，一种将小波变换（WT）嵌入深度可分离卷积的即插即用模块，以对数级参数增长换取指数级扩大的感受野，使 CNN 在无需大幅增加计算量的前提下即可获得近似全局感受野，显著提升 ImageNet 分类、ADE20K 语义分割和 COCO 检测等任务的精度，同时增强模型对形状的偏好、对扰动的鲁棒性，并优于现有大核卷积或频域方法。在实际操作中，我们只需要通过并行、串联、多尺度融合等方式，对其进行排列组合，便能实现高效涨点。，涉及多个种类：注意力机制、快速傅里叶变体、卷积变体、特征融合、下采样；

2025-07-15 13:05:30 96

转载读博最佳时机！政策全面落地，读博水水得了。。

如果你正在考虑学术道路的长期投入，或是关注国家高端人才培养的战略走向，那么2025-2035年这个阶段，很可能是近十年来攻读博士学位。期刊编辑1v1诊断论文，精准预判发表几率，定制高效修订方案——从返修指导到录用保障，全程护航您的学术成果。最终选择了最优质的精英导师团队，将全程护航您的成果交付——从文献攻坚到论文录用，拒绝任何形式的责任缺位。只要掌握了他们的套路、精髓，多练习，执行到位，科研小白也能发出顶会文章。——从第一篇论文的录用通知，到第一份年薪30万+的录用函，全程为你护航。

2025-07-14 13:05:35 44

转载 ICML 2025 Oral！北大&腾讯优图破解AI生成图像检测泛化难题

在该工作中，我们发现，AI 生成图像（AIGI）检测中的真假（Real-Fake）二分类，与普遍、标准的「猫狗二分类」不同的是，AIGI 的二分类是不对称的，即如果直接训练一个检测器，模型会非常快的过拟合到训练集里固定的 Fake Patterns 上，限制了模型对未见攻击的泛化性，如图 1 所示。即假类是从真类来的，例如假猫其实是从真猫的分布学习而来的！通过我们提出的上述方法，能维持高秩的模型特征空间，最大程度的保留了原来的预训练的知识，同时学到了 Fake 相关的知识，因此取得更好的泛化性能。

2025-07-14 13:05:35 90

转载 ICCV 2025 | 多视图生成新范式！北大&清华提出MVAR：利用自回归模型探索多视图生成

如上图右所示，在基于 AR 的生成中，模型利用前 n-1 个视图的信息作为生成第 n 个视图的条件，从而允许模型利用先前生成的视图的信息。在未来的工作中，我们希望利用自回归模型的通用学习能力来统一多视图生成和理解任务，尤其是在难以获得高精度 3D 数据的场景理解生成任务上。其目的是确保在生成当前视图的过程中，模型能够从所有先前的视图中提取有效的引导信息，从而增强多视图的一致性。与视频不同，视频的不同帧之间有固定的时序关系，多视角图像之间并没有固定的时序关系，我们可以从很多条不同的时序轨迹去合成多视角图像。

2025-07-14 13:05:35 47

转载实验室8篇论文被ICCV 2025录用

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！转载自：深空探测人工智能实验室近日，ICCV 2025会议论文接收结果出炉!大会共收到了 11239份有效投稿，程序委员会推荐录用 2699 篇论文，最终录用率为24%。中国科学技术大学 DSAI Lab 团队8篇

2025-07-12 23:59:36 122

转载顶刊TPAMI 2025！TFMQ-DM：无损压缩扩散模型，6倍加速！

同时具有显著的兼容性，可与各种Diffusion量化框架无缝集成。研究人员的方法在平均4/8 bit权重，8/32 bit激活时，在所有评价指标上实现了超过Q-Diffusion，PTQD等已有方法在对应比特时的性能，且在大部分场景4bit结果超越已有方案在8-bit权重甚至于全精度模型的性能。进一步考虑样本独立性与时间特征的有限性，每个下标t和i对应的特征在推理过程中保持不变，因此可以预先离线计算这些特征，并直接对其对应的全精度特征优化量化参数，并将量化后的版本与其参数一起缓存，以解决相关问题。

2025-07-11 13:06:14 45

转载 ICML 2025 高分论文！快手&南开提出：模块化双工注意力机制，显著提升多模态大模型情感理解能力！

现有的主流多模态大模型具有通用可泛化的注意力架构，然而以语言为中心进行预训练机制导致其存在模态偏置，难以关注到细粒度的情感线索。，然后将上采样后的基向量与跨模态注意力掩码Ocross相加，得到最终的跨模态注意力掩码。为了缓解塌陷的注意力矩阵并防止它在词元上过度平滑，提出一种模块化注意力掩码，它选择将不必要的注意力值存储在这些伪注意力分数中。展现出卓越的性能，有效提升了分析的精度和应用效果，尤其是在情感变化检测和个性化推荐任务中提升感知精度，有力支撑了可灵视频生成产品的性能。

2025-07-11 13:06:14 44

转载 MICCAI 2025 | MSWAL：首个涵盖七种腹部病灶的3D多类医学分割数据集

对比实验的结果展示出肾脏部位的病灶是最难识别的，原因可能是肾脏部位的病灶包括肾肿瘤，肾囊肿，肾结石，这三种病灶之间的特征相似性会一定程度地干扰模型的判断。我们创新性地提出了Inception nnU-Net，利用nnU-Net框架的预处理能力和Mini Inception的多感受野，提取了不同病灶的特征，实验表明，Inception nnU-Net相较于六个公开的SOTA模型相比，具有更好的性能。我们建立了一个新的基于MSWAL的benchmark，评估了六个公开的SOTA模型的性能。

2025-07-11 13:06:14 95

计算机视觉中的多视图几何(中文版)

2017年互联网女皇报告中英文完整版

机器学习实战（中文版+英文版+源代码）

空空如也