EDPJ-CSDN博客

原创（2025|南大，LLM，强化学习，离线逆强化学习，下一 token 预测，内生奖励）在 LLM 中发现通用奖励模型

本文发现，一个强大的通用奖励模型并非需要构建，而是可以挖掘出来的，因为它潜伏在任何通过标准下一 token 预测训练的语言模型中。这种内生奖励并非启发式的，而是理论上等同于通过离线逆强化学习学到的奖励函数，它可带来优越于基础模型的策略

2025-07-06 15:22:51 859

原创（2025|ICML|丹麦技术大学，潜在扩散/LDM，隐式神经表示/INR，超网络）Hyper-Transforming LDM

本文提出 LDMI，结合了 INR 的表达力与 LDM 的生成能力。HD 解码器使用 Transformer 架构支持概率建模，克服了 MLP 超网络的扩展性与确定性局限。LDMI 可灵活迁移已有模型至函数生成任务，适用于图像、3D、气候等多模态数据，支持高分辨率重建与生成

2025-07-04 13:53:09 1022

原创（2025|CVPR|Reichman，扩散，图像拼接，拼接约束，相似性约束，拼接分数/TS）拼接扩散

图像拼接是将图像在边缘无缝连接，以构建连续、统一视觉场景。本文提出了 Tiled Diffusion，支持从自拼接到复杂多对多连接的多种拼接场景，实现了拼接过程的自动化，消除了人工干预的需要，并在多个应用中提升了创作可能性。

2025-07-01 13:47:57 924

原创（2025|微软 & 北大 & 清华，下一 token 推理 / NTR，下一 token 预测，强化学习，LLM）强化预训练

本文介绍强化预训练 (RPT)，这是一种用于预训练大型语言模型的全新范式。通过将下一个标记预测构建为可验证的推理任务，并应用基于正确性的奖励机制的强化学习，RPT 允许 LLM 在预训练过程中利用扩展计算来构建更强大的基础推理能力。

2025-06-30 14:40:36 667

原创（2025|中科大 & CASIA，持续学习，谱感知整合，奇异值分解，无监督查询正则化）LLaVA-c：持续改进的视觉指令微调

现有持续学习方法往往优先考虑任务特定性能，忽视因过拟合特定指令导致的基础模型退化，从而削弱了模型的通用能力。本文提出 LLaVA-c，对 LLaVA-1.5 进行了两项改进：引入谱感知整合以提升任务平衡性，引入无监督查询正则化以防止基础模型退化。

2025-06-25 17:45:37 581

原创（2025|Nature Electronics|清华&港大，脑机接口，无人机操控）基于忆阻器的脑机接口自适应神经形态解码器

本研究首次在 BCI 系统中实现了忆阻器阵列级的 “硬件级一步解码”。该解码器用于执行脑控四自由度无人机飞行任务。通过结合人脑认知学习机制与芯片在线更新，实现了能耗低、响应快、可长期稳定运行的脑机交互系统。提出的协同进化框架展现了未来神经形态计算与认知智能结合的潜力，为 BCI 系统从实验室走向实际应用提供了新方向。

2025-06-21 13:09:32 1582

原创（2025|Nature|UC Davis，脑机接口，语音合成，Transformer）即时语音合成神经假体

本研究提出一种 “即时脑-语音” 神经假体系统，通过实时解码肌萎缩性侧索硬化症患者大脑中的神经活动，实现语音合成和音频反馈，恢复交流能力。不同于此前仅将神经信号转译为文字的方式，该系统可直接合成语音，包含语调、重音、旋律等副语言特征，即便缺乏训练用的真实语音数据，仍可实现较高质量的合成结果

2025-06-16 10:00:52 798

原创（2025|HKUST & JHU，MeWM，VLM，疾病演化模拟，治疗策略优化）医学世界模型：用于治疗计划的肿瘤演化生成模拟

本文提出的 MeWM 首次将世界模型理念引入医学领域，实现了可视化、可量化、可优化的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环，MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法

2025-06-05 14:22:05 992

原创（2025|Meta & NYU，视觉 SSL，模型和数据扩展，仅图像 ViT 训练）扩展无语言视觉表征学习

本文探讨视觉自监督学习在无语言监督情况下能否与 CLIP 等语言监督方法在多模态任务上相抗衡。研究表明，随着模型规模的扩大，尤其是训练样本数量的增加，视觉模型能够学到与语言相关的特征，并在无需显式语言监督情况下，与 LLM 和多模态任务对齐

2025-06-04 10:08:07 1079

原创（2025|TMLR|FAR AI & NYU & Stability AI & 谷歌）逆扩展：更大并不一定更好

本文首次系统识别并分析了 11 种表现出“逆扩展”的任务，提出了 4 类成因并构建评估基准，揭示了 “扩展定律” 并非普适真理。未来 LM 发展中，亟需在任务设计、训练目标、few-shot 示例选择等方面做出改进。

2025-06-02 09:56:26 813

原创（2025|NVIDIA，NAS，蒸馏，持续预训练，SFT，RLHF，聊天与推理）Llama-Nemotron：高效推理模型

Llama-Nemotron 是开源异构推理模型系列，主打高推理能力与高推理效率。它通过推理开关机制，支持在聊天与推理模式间切换。该模型系列基于 Llama 3 系列，通过神经架构搜索、知识蒸馏、持续预训练、监督微调与强化学习五阶段完成训练

2025-05-11 11:53:10 1096

原创（2025|NVIDIA，压缩，FP8，VLM）Nemotron-H：精确高效的混合 Mamba-Transformer 家族

Nemotron-H 是混合 Mamba-Transformer 架构家族，通过用计算量和内存需求固定的 Mamba 层替换大部分自注意力层，旨在在保持准确率的前提下降低推理成本和提升推理速度。它使用 FP8 的训练方案和 MiniPuzzle 压缩技术进一步降低了模型开发和部署成本。

2025-05-10 10:55:08 718

原创（2025|伦敦帝国理工 & 上海 AI lab，机器人，VLM，LLaVA，RoVI，VIEW）机器人视觉指令

本文提出了 RoVI，一种用户友好、空间精准的机器人指令方式，通过手绘符号替代自然语言，克服语言表达的模糊和冗长问题。设计的 VIEW 框架能够有效地将 RoVI 转换为实际机器动作，在复杂、杂乱、多步骤任务中展现了强大的泛化能力和稳健性

2025-05-07 19:50:38 576

原创（2025，AR，NAR，GAN，Diffusion，模型对比，数据集，评估指标，性能对比）文本到图像生成和编辑：综述

本文介绍了文本到图像生成的四个基础模型架构（自回归，非自回归，GAN 和 Diffusion）以及常用的关键技术（自编码器，注意力和无分类器引导）。

2025-05-07 14:34:54 1027

原创（2025|字节，RL，MoE，数学/科学推理，编程）Seed-Thinking-v1.5：利用强化学习推进卓越推理模型

本文提出了推理模型 Seed-Thinking-v1.5，采用 MoE 架构，使用强化学习提升思考能力。该模型在数学、编程和科学任务中表现出色。

2025-05-06 09:54:35 777

原创（2025|字节，VAE，DiT，多阶段训练，并行，蒸馏，内核融合）Seaweed-7B：经济高效的视频生成基础模型训练

Seaweed-7B 是一个具备约 7B 参数的中型视频生成基础模型，展示了中等规模模型在视频生成中的巨大潜力，其高效的数据处理、模型设计和优化策略使其在有限资源下依然具备极强的通用性与生成能力。

2025-04-24 23:45:53 1142

原创（2025|Numina & Kimi，Lean 4 定理证明）Kimina-Prover 预览：面向强化学习的大型正式推理模型

本文提出 Kimina-Prover Preview，一种在 Lean 4 证明助理中进行正式定理证明的大型语言模型。该模型基于 Qwen2.5-72B，通过大规模强化学习训练，采用正式推理模式的结构化策略，使其能够模拟人类解题过程。

2025-04-23 17:51:36 871

原创（2025|字节，混合分辨率训练，跨模态 RoPE，SeedEdit，图像生成和编辑，VLM）Seedream 3.0 技术报告

Seedream 3.0 是一个中英双语图像生成基础模型，相较于 2.0，它采用了从数据构建到模型推理的系统性优化：数据量翻倍，结合图像分布与语义平衡的采样策略；引入混合分辨率训练、跨模态 RoPE、表示对齐损失与分辨率感知的时间步采样

2025-04-23 17:45:05 1043

原创（2025|字节，ByT5，DiT，LLM，SFT，RLHF，RoPE）Seedream 2.0：中英双语图像生成基础模型

Seedream 2.0 是中英双语的文本生成图像基础模型，它整合自研双语大模型作为文本编码器，融合 ByT5 字符级建模及多阶段优化策略（包括监督微调和 RLHF），展现出在中英文提示理解、美学质量、结构正确性和文本渲染方面的优越性能

2025-04-23 15:38:22 1155

原创（2025|Kimi，MoE，长 CoT，RL，MoonViT）Kimi-VL 技术报告

Kimi-VL 是一款在多模态与纯文本预训练/微调之间实现平衡的视觉语言模型，基于 MoE 架构，兼具扩展性与效率。Kimi-VL 在多模态、长上下文和高分辨率任务中表现出强大的适应性与效率，具有良好的研究与产业应用前景。

2025-04-14 13:16:48 1335

原创（2025|ICLR|NUS & 阿里，DyDiT，输入无关，时间步动态宽度，空间动态 Token）动态 DiT

本文提出 DyDiT，一种可在时间和空间维度动态调整计算资源的架构。在时间维度上，引入时间步动态宽度，使模型根据扩散时间步动态调整网络宽度；在空间维度上，提出空间动态 Token，跳过对预测难度低的图像区域的冗余计算

2025-04-04 13:18:36 728

原创（2025|字节，MLLM，VoRA，块级蒸馏，双向视觉注意力）视觉作为 LoRA

本文提出 VoRA，将视觉能力内置于 LLM，以实现无需外部视觉编码器的 MLLM。与主流 MLLM 依赖外部视觉模块不同，VoRA 通过直接将视觉专用的 LoRA 集成进 LLM，使其在推理时可合并为标准模型，极大降低结构复杂度与计算开销

2025-04-01 12:16:52 1210

原创（2025|阿里，DiT，时空 VAE，多模态（文本，图像，视频，音频）生成）Wan：开放且先进的大规模视频生成模型

本文详细介绍基础视频生成模型 Wan 的 Wan-VAE 与 DiT 架构设计、训练流程、数据构建与评估方法；深入探索了多个下游应用，如图像生成视频、视频编辑、个性化生成，展现出 Wan 的广泛适应性

2025-03-31 14:33:58 1765

原创（2025|Qwen Team，多模态，TMRoPE，Thinker-Talker）Qwen2.5-Omni 技术报告

本文提出了 Qwen2.5-Omni，一种端到端多模态模型，通过 Thinker-Talker 架构和 TMRoPE 位置嵌入，能够同时处理文本、图像、音频和视频，并以流式方式生成文本和自然语音响应。为实现多模态信息的实时流式输入，音频和视觉编码器均采用分块处理，以分担长序列数据的感知和处理任务。

2025-03-28 12:38:43 1282

原创（2025|DeepMind，多模态，长上下文，多语言，交错的注意力，量化，蒸馏，高分辨率）Gemma 3 技术报告

本文介绍了 Gemma 开源语言模型家族的最新版本 Gemma 3，主打轻量级、通用性强。与前代相比，Gemma 3 引入三大新能力：多模态理解（尤其是图像）、更长的上下文处理能力（最多支持 128K token）、增强的多语言支持。

2025-03-27 12:10:01 1062

原创（2025|DeepSeek，增强的 Janus）Janus-Pro：通过数据和模型扩展实现统一的多模态理解和生成

本文提出 Janus 的增强版本 Janus-Pro，旨在提升多模态理解和文本生成图像的能力。Janus-Pro 在三个维度上进行改进：训练策略、数据扩展和模型规模扩展。Janus-Pro 在多个基准任务中取得领先成绩，验证了其方法的有效性

2025-03-26 11:29:30 1221

原创（2024|DeepSeek，为理解与生成设计独立的视觉编码路径）Janus：解耦视觉编码以实现统一的多模态理解和生成

本文提出了 Janus，一个通过视觉编码器解耦的统一多模态框架。Janus 分别为理解与生成任务设计独立的视觉编码路径，并使用统一的 Transformer 处理输入，从而缓解任务间冲突，提升灵活性。

2025-03-25 12:55:35 1270

原创（2025|NVIDIA，监督微调，强化学习，LLaVA，Mamba）Cosmos-Reason1: 从物理常识到具身推理的探索

本文提出了 Cosmos-Reason1 系列多模态大语言模型，专注于提升物理人工智能系统在物理常识与具身推理方面的能力。模型能够通过对视频等视觉输入的理解，结合长链式思维过程，在自然语言中做出符合物理逻辑的推理与决策。

2025-03-23 12:48:03 898

原创（2025|NVIDIA，DiT，ControlNet）Cosmos-Transfer1：具有自适应多模态控制的条件世界生成

Cosmos-Transfer1 是一种具备自适应多模态控制能力的扩散模型，可用于高质量、可控的世界视频生成。其引入的控制分支与时空控制图机制提供了灵活性与精度的平衡。

2025-03-22 12:40:34 1313

原创（2025|ICLR|浙大&西湖大学，LLaVA，CLIP）PATHGEN-1.6M：通过多代理协作生成 1.6M 病理图文对

本文提出了 PathGen-1.6M，首个由多 agent 协作生成的超大规模高质量病理图文数据集，并基于此构建了 PathGen-CLIP 与 PathGen-LLaVA，分别在图像分类与多模态任务上大幅提升性能

2025-03-21 13:54:10 981

原创（2025|ICLR|阿里&浙大，fVLM，双重假阴性校正）大规模细粒度视觉语言预训练增强 CT 图像理解

本文提出细粒度视觉-语言模型，用于增强 CT 影像理解。它通过解剖级对齐，提高了模型的可解释性和诊断性能。本文还提出一种方法来识别正常和异常样本的假阴性，并将对比学习从病人级扩展到基于疾病的配对。

2025-03-20 12:04:15 1248

原创（2025|ICLR|华南理工，任务对齐，缓解灾难性遗忘，底层模型冻结和训练早停）语言模型持续学习中的虚假遗忘

本文提出虚假遗忘的概念，指出性能下降主要源于任务对齐，而非知识丢失。旧任务的表现下降可以通过训练少量数据恢复，表明知识仍然保留。新任务训练初期会破坏已建立的任务对齐，使模型难以应用已存知识。通过冻结底层模型参数可以显著改善持续学习中的性能

2025-03-19 11:08:51 996

原创（2025|ICLR|北大 & 谷歌，模型参数视为 Token，Transformer 扩展）TokenFormer

本文提出 TokenFormer，一种基于注意力机制的可扩展 Transformer 变体。通过将模型参数视为 Token，TokenFormer 可逐步扩展而无需重新训练，从而大幅降低训练成本。

2025-03-18 10:39:43 1044

原创（2025|ICLR|NVIDIA，高分辨率视觉编码器混合）EAGLE：基于混合编码器探索多模态 LLM 的设计空间

本文探索 MLLM 中混合视觉编码器的设计空间，分析不同的编码器及其组合方式。研究表明，仅通过简单的视觉 token 拼接即可获得与复杂融合策略相当的效果。此外，引入预对齐策略，可有效减少视觉编码器与语言 token 的差距，提升模型一致性

2025-03-17 10:40:12 885

原创（2025|ICLR|Sea AI & SMU，回归模型，以小见大）RegMix：用于语言模型预训练的作为回归的数据混合

本文提出 RegMix，将数据混合问题建模为回归任务，通过训练小规模模型来预测不同数据混合的影响，从而自动选择高性能的数据组合。实验证明 RegMix 在多种基准任务上超越了人类选择的数据混合策略。

2025-03-13 10:35:22 1115

原创（2025|ICLR|MIT，TEAL，幅度剪枝）大型语言模型的无训练激活稀疏性

本研究提出 TEAL，一种简单的、无训练的激活稀疏方法，采用基于幅度剪枝的策略，在整个模型的隐藏状态中应用稀疏化。 TEAL 可在实现 40%-50% 的全模型稀疏性的同时保持最小的性能损失。

2025-03-12 10:42:23 982

原创（2025|ICLR|厦大&华为，LoSA，基于表示互信息的动态层级稀疏率，基于重构误差的秩分配）LLM 的动态低秩稀疏自适应

本文提出动态低秩稀疏适配，实现稀疏 LLM 与低秩适配的无缝集成。它在微调过程中动态调整稀疏率和秩，以提高稀疏 LLM 的性能而不增加推理延迟。它通过基于表示互信息的动态层级稀疏率和基于重构误差的秩分配策略实现了稀疏与低秩适配的有效融合

2025-03-11 10:28:40 1131

原创（2025|ICLR|HKBU，自适应噪声检测器 AdaND，分类器与检测器解耦，高斯噪声注入）视觉语言模型中的有噪测试时自适应

本文提出了一种新的 ZS-NTTA 方法 AdaND，通过解耦分类器与检测器并注入高斯噪声，显著提高了测试时自适应性能，同时保持计算效率。实验表明，该方法在 ZS-NTTA 和 ZS-OOD 检测任务上均达到当前最优性能。

2025-03-10 10:25:28 740

原创（2025|IBM，多尺度字节语言模型 MBLM，Transformer，Mamba）用于因果百万长度序列建模的分层架构

本文提出多尺度字节语言模型，其采用分层的、模型无关的解码结构，通过结合 Transformer 和 Mamba 块，可在单张 GPU 上以完整模型精度训练 5M 字节的上下文窗口。

2025-03-07 10:53:09 951

原创（2025|AIRI，LoRA 知识集成）在 LoRA 中可装入多少知识而不损害 LLM？

本文进行 LoRA 微调，并控制新知识的数量，研究如何平衡新知识的引入与模型整体能力的保持。研究发现，混合已知与新知识的数据可获得最佳结果，但仍会导致模型在外部问答基准测试上的性能下降。

2025-03-06 10:53:35 928

空空如也

空空如也