自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(651)
  • 收藏
  • 关注

原创 【AI论文】Ovis2.5技术报告

我们推出Ovis2.5,这是Ovis2的升级版本,专为原生分辨率视觉感知和强大的多模态推理而设计。Ovis2.5集成了原生分辨率视觉变换器,该变换器可在图像的原生可变分辨率下直接处理图像,避免了因固定分辨率分块处理而导致的性能下降,同时保留了图像的精细细节和全局布局——这对于复杂图表等视觉密集型内容而言至关重要。为增强推理能力,我们训练模型超越线性思维链,执行反思操作,包括自我检查和修正。这一高级功能在推理时可作为可选的“思考模式”启用,使用户能够在处理困难输入时,以增加延迟为代价换取更高的准确性。

2025-08-20 11:53:22 495

原创 【AI论文】STream3R:基于因果变换器(Causal Transformer)的可扩展序列式三维重建

摘要:STream3R是一种创新的3D重建方法,采用仅解码器的Transformer架构将点图预测重新表述为序列问题。该方法突破传统全局优化和简单记忆机制的局限,借鉴语言建模思想,引入流式处理框架和因果注意力机制,从大规模3D数据中学习几何先验知识。实验证明,STream3R在静态和动态场景基准测试中均优于现有方法,且兼容LLM风格训练架构,支持大规模预训练和微调。这项研究展现了因果Transformer在实时3D感知领域的潜力,为流式环境下的3D理解开辟了新途径。项目详情见:https://nirvana

2025-08-19 18:00:00 1449

原创 【AI论文】扩散语言模型综述

摘要:扩散语言模型(DLMs)作为自回归模型的新型替代方案,通过并行迭代去噪机制在降低推理延迟和捕捉双向上下文方面展现出优势。本文系统梳理了DLMs从连续型到离散型再到多模态的发展历程,详细解析了其核心原理、技术分类及训练推理策略。研究显示,DLMs在文本生成、代码生成等任务中具有显著性能提升,但面临并行性与质量权衡、长序列处理等挑战。未来研究应聚焦优化并行解码算法、完善基础设施支持及拓展多模态应用,同时关注模型伦理影响。项目资源见GitHub和HuggingFace链接。

2025-08-19 12:00:00 855

原创 【AI论文】Puppeteer:操控并让你的3D模型动起来

本研究提出Puppeteer框架,实现3D模型的自动化骨骼绑定与动画生成。通过自回归变换器预测骨骼结构,结合基于注意力机制的蒙皮权重预测和可微优化动画管线,该系统显著提升了骨骼预测准确性和蒙皮质量。实验表明,Puppeteer在多个基准测试中优于现有方法,能稳定生成无抖动动画,适用于专业设计资源和AI生成模型。研究同时分析了当前在细粒度变形处理、实时部署等方面的局限性,并提出了未来改进方向。相关成果已发布在arXiv(2508.10898)。

2025-08-19 07:00:00 1165

原创 【AI论文】UI-Venus技术报告:借助强化微调(RFT)打造高性能用户界面(UI)代理

UI-Venus:基于强化微调的多模态UI代理实现SOTA性能 摘要:本研究提出UI-Venus,一种基于Qwen2.5-VL模型的新型UI代理系统。通过创新的强化微调(RFT)方法和高效数据清洗策略,仅使用数十万训练样本就在UI任务上取得突破性进展。7B/72B版本在ScreenSpot-V2/Pro基准上分别达到94.1%/50.8%和95.3%/61.9%的准确率,显著超越现有模型。特别设计的自进化轨迹历史对齐与稀疏动作增强方法,有效提升了复杂UI任务中的规划能力,在AndroidWorld导航任务中

2025-08-18 19:30:00 1537

原创 【AI论文】观察、聆听、记忆与推理:具备长期记忆能力的多模态智能体

我们推出了M3-Agent,这是一个配备了长期记忆功能的新型多模态智能体框架。与人类相似,M3-Agent能够处理实时的视觉和听觉输入,以构建并更新其长期记忆。除了情景记忆外,它还能形成语义记忆,从而能够随时间推移不断积累世界知识。其记忆以实体为中心、采用多模态格式进行组织,能够实现对环境更深入、更一致的理解。在接收到指令后,M3-Agent能够自主进行多轮、迭代推理,并从记忆中检索相关信息以完成任务。

2025-08-18 12:00:00 882

原创 【AI论文】Mol-R1:迈向分子发现中的显式长思维链(Long-CoT,Long Chain of Thought)推理

摘要:本研究针对大型语言模型(LLMs)在分子发现任务中面临的推理能力不足和效率低下问题,提出了Mol-R1创新框架。该框架通过先验调节的上下文蒸馏(PRID)策略生成高质量推理数据集,并采用分子迭代适配(MoIA)训练策略结合监督微调与强化学习,显著提升了模型性能。实验表明,Mol-R1在分子生成准确性和推理轨迹质量上均优于基准模型,特别是在精确匹配和分子指纹相似度指标表现突出。尽管存在数据依赖性和计算成本等局限,该研究为提升知识密集型领域的LLMs推理能力提供了有效解决方案,未来可进一步优化数据生成方法

2025-08-18 07:00:00 817

原创 【AI论文】序曲(PRELUDE):一项旨在考察对长文本语境进行全局理解与推理能力的基准测试

我们推出了一项名为PRELUDE的基准测试,该测试通过判断某角色前传故事是否与原著正传的经典叙事一致这一任务,来评估对长文本语境的理解能力。与现有基准测试相比,我们的任务对全局理解和深度推理提出了更高要求——由于前传并非原著故事的一部分,评估其合理性通常需要搜索并整合仅间接相关的信息。经验性研究表明,88%的案例需要从叙事的不同部分提取证据。

2025-08-17 18:00:00 558

原创 【AI论文】ToonComposer:借助生成式后关键帧绘制技术简化卡通制作流程

摘要:本研究提出ToonComposer生成式模型,将传统卡通制作中的中间帧生成与上色阶段统一为后关键帧绘制过程。该模型采用稀疏草图注入机制实现精确控制,并引入空间低秩适配器将视频基础模型适配至卡通领域。实验表明,ToonComposer仅需单幅草图和彩色参考帧即可生成高质量卡通视频,在视觉质量、运动一致性等方面均优于现有方法。研究人员构建的PKBench基准测试显示,该模型显著提升了制作效率,为AI辅助卡通制作提供了创新解决方案。论文链接:2508.10881

2025-08-17 12:16:10 912

原创 【AI论文】NextStep-1:迈向大规模连续令牌自回归图像生成

摘要:本文提出NextStep-1模型,一种14B参数的自回归模型结合157M参数的流匹配头,创新地将离散文本令牌与连续图像令牌统一训练。该模型在文本生成图像任务中取得当前自回归模型的最佳性能,并在图像编辑任务中展现优异表现。研究采用三阶段预训练和两阶段后训练策略,使用5.5亿高质量图像-文本对数据。实验显示NextStep-1在多个基准测试中超越现有自回归模型,部分指标接近扩散模型水平。论文同时指出模型在高分辨率生成和训练稳定性方面的局限,并提出了未来改进方向。代码和模型已开源。

2025-08-16 20:00:00 724

原创 【AI论文】We-Math 2.0:一个激励视觉数学推理的多功能数学工具书(MathBook)系统

《We-Math2.0:知识驱动的多模态数学推理系统》 摘要:针对多模态大语言模型在数学推理中的不足,本研究提出We-Math2.0系统,通过整合结构化知识体系与强化学习框架提升模型性能。系统构建了包含491个知识点和1819条原理的五层数学知识体系,开发了标准版和专业版数据集,其中专业版通过三维难度空间生成7种难度变体。创新性地采用两阶段强化学习策略,包括冷启动微调和渐进对齐训练。实验表明,仅用9.8K样本训练的7B模型在多个基准测试中表现优异,尤其在复杂推理任务上展现出强大泛化能力。研究同时揭示了现有模

2025-08-16 13:56:18 861

原创 【AI论文】Story2Board:一种无需训练的富有表现力故事板生成方法

摘要:本文提出Story2Board框架,无需训练即可从自然语言生成富有表现力的故事板。现有方法多侧重角色一致性,而忽视构图、背景演变等关键叙事要素。为此,我们设计了轻量级一致性框架:1)潜在面板锚定保持角色参考;2)互惠注意力值混合实现特征融合。该方法无需修改模型架构,即可增强故事板连贯性。实验采用新提出的RichStoryboardBenchmark评估,包含开放领域叙事和场景多样性指标。结果显示,与基线方法相比,Story2Board生成的故事板更具动态性、连贯性和叙事吸引力。

2025-08-15 12:22:12 873

原创 【AI论文】WebWatcher:开拓视觉语言深度研究智能体的新领域

像深度研究(Deep Research)这类网络智能体已展现出超越人类水平的认知能力,能够解决极具挑战性的信息检索问题。然而,目前大多数研究仍主要以文本为中心,忽略了现实世界中的视觉信息。这使得多模态深度研究极具挑战性,因为与基于文本的智能体相比,此类智能体在感知、逻辑、知识推理以及使用更复杂工具方面需要具备更强的推理能力。为解决这一局限,我们推出了具备增强型视觉语言推理能力的多模态深度研究智能体——WebWatcher。

2025-08-15 07:00:00 1700

原创 【AI论文】自进化人工智能体全面综述:连接基础模型与终身智能体系统的新范式

摘要: 大型语言模型(LLM)的突破推动了自进化AI智能体的发展,使其从静态工具转向具备动态适应能力的系统。当前技术演进包括离线预训练、在线适配、多智能体协作和自进化阶段,但仍面临角色僵化、长尾知识更新等挑战。核心优化方向涵盖LLM行为、提示、记忆、工具及多智能体拓扑优化,但需平衡安全性与性能、泛化性与领域适配。未来需融合多模态交互、神经符号系统及6G技术,并建立动态安全评估与跨领域通用框架。典型案例如医疗诊断(MDAgents)和金融决策(PEER)凸显了领域适配与实时数据更新的需求。自进化智能体的终极目

2025-08-14 18:00:00 1153

原创 【AI论文】宽域搜索:代理式广泛信息检索的基准测试

摘要:本文围绕基于LLM的智能搜索代理展开研究,重点分析了WideSearch基准测试的突破性贡献。该测试首次系统性定义了"广域信息寻求"任务,通过200道跨领域问题揭示了现有搜索代理在规划完整性、证据利用等方面的核心缺陷(成功率<5%)。研究探讨了多代理协作、强化学习优化等热点方案,同时指出数据质量平衡、能力矛盾等关键争议。未来发展方向包括多模态处理、持续学习和可解释性构建等。WideSearch的推出标志着智能搜索代理研究从功能实现向性能优化的关键转变,为突破大规模信息检索瓶颈

2025-08-14 12:00:00 729

原创 【AI论文】InfiGUI-G1:借助自适应探索策略优化推进图形用户界面(GUI)指代消解

本文提出自适应探索策略优化(AEPO)框架,解决多模态大语言模型在GUI指代消解任务中的语义对齐瓶颈。通过多答案生成策略和基于效率理论的自适应探索奖励(AER),显著提升了模型探索效率。实验表明,InfiGUI-G1系列模型在多个基准测试中取得最优结果,难样本性能提升达60%。虽然计算开销增加,但该方法为复杂语义关联学习提供了新思路。未来可结合高效采样策略和先进视觉编码器进一步优化性能。

2025-08-14 07:00:00 814

原创 【AI论文】ReasonRank:凭借强大推理能力助力段落排序

摘要:本文综述了基于强化推理的列表式重排序模型的研究现状与发展趋势。研究表明,大型语言模型(LLMs)在列表式排序任务中展现出卓越性能,逐步推理能力显著提升排序效果。当前研究热点包括推理密集型排序模型、多模态排序和实时增量学习,但也面临训练数据质量、推理效率与性能平衡等挑战。未来发展方向将聚焦多模态信息融合、实时排序技术、模型可解释性提升及跨领域数据共享。ReasonRank等先进模型在BRIGHT排行榜上取得40.6的SOTA性能,表明该领域具有广阔发展前景。

2025-08-14 07:00:00 656

原创 【AI论文】Voost:一种面向双向虚拟试穿与脱卸的统一且可扩展的扩散变换器(Diffusion Transformer)

本文提出Voost框架,通过单个扩散变换器联合学习虚拟试穿(VTON)与脱卸(VTOFF)任务。该创新方法利用双向监督机制,使服装-人物组合能相互优化生成过程,无需额外网络或损失函数。研究引入注意力温度缩放增强鲁棒性,采用自校正采样提升一致性。实验表明,Voost在VITON-HD等基准测试中全面超越基线模型,在服装对齐精度(SSIM提升15%)、视觉真实感(FID降低20%)和跨姿态泛化能力方面表现突出。用户研究显示其生成结果在85%案例中更受青睐,为时尚电商和AR/VR应用提供了高效解决方案。

2025-08-13 18:00:00 1657

原创 【AI论文】GLM-4.5:具备智能体特性、推理能力与编码能力的(ARC)基础模型

GLM-4.5是一款开源的3550亿参数MoE大语言模型,采用混合推理方法支持"思考"与"直接响应"模式。经过23万亿tokens的多阶段训练和强化学习后训练,该模型在智能体特性(TAU-Bench 70.1%)、推理能力(AIME24 91.0%)和编码能力(SWE-bench 64.2%)方面表现优异。尽管参数量较少,GLM-4.5在12项基准测试中总体排名第三,智能体测试排名第二。研究同时发布了精简版GLM-4.5-Air(1060亿参数),并指出当前存在数据质

2025-08-13 12:00:00 1885

原创 【AI论文】当今的大语言模型(LLMs)能阐释好幸福相关概念吗?

本研究探讨大语言模型生成幸福相关概念解释的能力。构建了包含10种模型对2194个概念生成的43,880条解释的数据集,提出原则指导型评估框架,采用双重评判机制评估解释质量。研究发现:1)模型评判与人类评估高度契合;2)不同模型、受众和概念类别的解释质量存在显著差异;3)通过监督微调(SFT)和直接偏好优化(DPO)微调的模型性能优于更大规模模型。研究为提升专业领域解释质量提供了有效方法,同时指出了数据集主观性、计算资源需求等局限。未来可扩展数据集、优化评估框架和改进微调策略。

2025-08-13 07:00:00 859

原创 【AI论文】Hi3DEval:以分层有效性推进三维(3D)生成评估

本文提出Hi3DEval框架用于3D生成内容的质量评估。针对现有基于图像评估方法的局限性,该框架采用分层评估策略,结合对象级和部件级分析,并引入材质真实性评估指标(反照率、饱和度等)。配套构建了Hi3DBench数据集(15,300个3D资产)和多智能体标注流程,开发了基于混合3D表征的自动化评分系统,融合视频表征和3D特征。实验表明,该方法在3D特征建模和人类偏好一致性上优于传统图像指标,为3D内容评估提供了更全面的解决方案。研究同时指出了当前在主观评分、局部特征捕捉和计算效率方面的局限,建议未来拓展数据

2025-08-12 18:00:00 1260

原创 【AI论文】DeepPHY:面向物理推理的智能体视觉语言模型(VLMs)基准测评

摘要:本研究针对视觉语言模型(VLMs)在动态环境中的物理推理能力不足问题,提出了DeepPHY基准测评框架。该框架整合了PHYRE、I-PHYRE等6个不同复杂度的物理推理环境,通过标准化观察与行动空间转换,采用成功率等指标系统评估了17个主流VLMs的性能。实验表明,即便GPT-o3等顶尖模型在复杂物理推理任务中成功率仍低于23%,暴露出模型在细节关注、精确控制和多组件协同等方面的显著缺陷。研究还发现,世界模型提示格式并未带来预期性能提升,揭示了模型在将物理知识转化为精确行动方面的核心局限。这项工作为提

2025-08-12 12:00:00 1802

原创 【AI论文】Genie Envisioner:面向机器人操控的统一世界基础平台

摘要:GenieEnvisioner(GE)是一个统一的机器人操控基础平台,将策略学习、评估和仿真集成在视频生成框架内。核心组件包括:GE-Base(指令条件视频扩散模型)、GE-Act(动作轨迹解码器)和GE-Sim(神经网络仿真器),并配备EWMBench评估基准。实验表明,该平台在AgiBot-World-Beta数据集上表现出色,在视频生成质量、策略推理性能和跨形态泛化能力方面优于现有方法,但仍存在数据多样性不足等局限。未来将扩展数据规模、复杂形态支持,并改进评估方法。

2025-08-12 07:00:00 1164

原创 【AI论文】R-Zero:从零数据起步的自进化推理大语言模型

摘要:本研究提出R-Zero框架,通过自主生成训练数据实现大语言模型的自进化。该框架从单一基础模型出发,初始化挑战者和求解者两个角色:挑战者生成接近求解者能力边界的任务,求解者解决这些任务,二者通过交互实现共同进化。实验表明,R-Zero显著提升了模型推理能力,如Qwen3-4B-Base在数学推理基准上提升6.49分。该方法突破了传统依赖人工标注数据的限制,为AI系统超越人类智能提供了新路径。研究还探讨了该框架的局限性与未来改进方向。

2025-08-11 18:04:11 979

原创 【AI论文】序列标注任务广义化研究(SFT广义化):基于奖励修正的强化学习视角

本研究针对大语言模型监督微调(SFT)泛化能力不足的问题,提出动态微调(DFT)方法。通过理论分析发现标准SFT梯度存在隐式奖励结构问题,DFT通过动态调整词元损失函数解决了这一缺陷。实验表明,在多个数学推理基准测试中,DFT显著优于标准SFT,平均准确率最高提升15.66点,且在离线强化学习场景中也表现优异。研究还发现DFT能更快收敛、对超参数更鲁棒,并导致词元概率呈现双峰分布。虽然目前评估限于数学任务和中小规模模型,但DFT为提升SFT性能提供了简单有效的解决方案。代码已开源供进一步研究。

2025-08-11 17:01:32 766

原创 【AI论文】CompassVerifier:面向大语言模型评估与结果奖励的统一且稳健的验证器

【摘要】本研究针对大语言模型(LLMs)答案验证存在的两大核心问题——缺乏系统评估基准和现有验证器泛化能力不足,提出了创新解决方案。团队开发了CompassVerifier轻量级验证器,具备处理多子问题、公式等复杂答案的能力,并构建了包含2800+样本的VerifierBench基准测试。研究采用多源数据收集(130万+样本)、复杂公式增强和对抗性训练等技术,使验证器在数学、知识等多领域表现优异,F1分数显著领先。实验证明其作为强化学习奖励模型的有效性,同时指出了数据覆盖、复杂推理验证等现存局限。研究成果为

2025-08-10 18:00:00 1694

原创 【AI论文】LongVie:多模态引导的可控超长视频生成

摘要:本文提出LongVie框架,解决可控超长视频生成中的时间不一致性和视觉质量退化问题。通过统一噪声初始化和全局控制信号归一化确保时间一致性,采用多模态控制(结合密集和稀疏信号)及退化感知训练策略保持视觉质量。研究构建了包含100个高分辨率视频的LongVGenBench基准测试集,实验表明LongVie在各项指标上均达到最优性能。当前局限包括推理时间较长(45分钟/分钟视频)和分辨率待提升,未来将优化效率、提高分辨率并增强初始帧鲁棒性。该研究为可控长视频生成提供了有效解决方案。

2025-08-10 12:00:00 713

原创 【AI论文】天工UniPic:面向视觉理解与生成的统一自回归建模

摘要:天工UniPic是一款创新性的15亿参数自回归模型,首次在统一架构中实现了图像理解、文生图和图像编辑功能。该模型采用解耦编码策略(MAR编码器生成图像,SigLIP2编码器理解图像)和渐进式训练方法,在普通硬件上即可实现卓越性能:GenEval得分0.86,DPG-Bench创85.5新纪录,图像编辑任务表现出色。特别值得一提的是,该模型能在15GB GPU内存下生成1024×1024高分辨率图像,展现了出色的资源效率。研究团队还开发了专门的质量评估模型,并开放了模型权重和代码,为多模态AI发展提供了

2025-08-10 07:00:00 589

原创 【AI论文】种子扩散模型:一种具备高速推理能力的大规模扩散语言模型

摘要:种子扩散预览版(SeedDiffusionPreview)是一款基于离散状态扩散的新型语言模型,通过非顺序并行生成机制显著提升推理速度。该模型采用标准Transformer架构,结合两阶段课程训练策略(包括缩放扩散训练和约束顺序扩散训练)以及创新的块级并行扩散采样方法。在H20GPU上实现了2146 token/s的推理速度,远超同期Mercury和GeminiDiffusion等模型,同时在HumanEval、MBPP等代码评估基准中保持竞争力。研究验证了离散扩散模型在代码生成任务中的应用潜力,但指

2025-08-09 18:00:00 1632

原创 【AI论文】使用强化学习训练长上下文、多轮交互的软件工程智能体

摘要:本研究提出了一种改进的强化学习框架,用于训练大型语言模型处理软件工程中的多轮交互任务。通过优化解耦优势策略优化(DAPO)算法,我们开发了一个基于Qwen2.5-72B-Instruct的自主智能体。实验表明,该方法在SWE-bench Verified测试中将成功率从20%提升至39%,且无需依赖教师模型。在SWE-rebench上的表现与领先开源模型相当。研究验证了强化学习在复杂软件工程任务中的有效性,为开发自主智能体提供了新思路。论文链接:2508.03501。

2025-08-09 12:00:00 644

原创 【AI论文】SEAgent:具备从经验中自主学习能力的自进化计算机使用智能体

摘要: 研究提出SEAgent框架,使计算机使用智能体(CUAs)能够通过自主交互实现陌生软件的无监督学习。该框架结合经验学习与课程生成,通过World状态模型评估轨迹,并生成渐进式任务。采用对抗模仿优化失败动作,结合群体相对策略优化(GRPO)强化成功策略,并设计"专业到通用"训练策略整合个体经验。实验表明,SEAgent在OS-World五个新软件中的任务成功率较基线UI-TARS提升23.2%(达34.5%),且通用智能体性能优于专业智能体组合。未来需优化复杂任务处理与奖励机制,并

2025-08-09 07:00:00 1051

原创 【AI论文】高效智能体:在降低成本的同时构建高效能智能体

本研究系统探究了大型语言模型(LLM)智能体的效率与效能平衡问题,针对当前智能体系统运营成本高昂的痛点,通过GAIA基准测试集实证分析了LLM主干模型选择、框架设计和扩展策略的影响。研究发现:1)任务复杂度存在最优阈值;2)额外模块的边际效益递减;3)框架优化可显著提升效率。基于此开发的EfficientAgents框架,在保持96.7%性能的同时降低28.4%成本,实现"通过成本"指标优化。研究为构建经济高效的智能体系统提供了实证依据和方法指导,推动AI解决方案的可持续发展。

2025-08-08 18:00:00 814

原创 【AI论文】大型语言模型(LLM)的思维链推理是海市蜃楼吗?——基于数据分布视角的探讨

【摘要】本研究通过数据分布视角探究了思维链(CoT)推理在大语言模型中的本质。研究采用DataAlchemy实验框架,从任务、长度和格式三个维度分析发现:CoT推理能力高度依赖训练数据分布,在任务变化(新颖元素/变换)、推理链长度波动或提示格式改动时,模型性能显著下降。结果表明CoT推理更可能是一种基于模式匹配的脆弱现象,而非真正的逻辑推理能力。研究揭示了当前CoT提示法的局限性,为开发更具泛化性的推理方法提供了重要启示。(149字)

2025-08-08 12:32:10 789

原创 【AI论文】VeriGUI:可验证的长链图形用户界面(GUI)数据集

摘要:本研究提出VeriGUI——新型可验证长链GUI数据集,旨在推动全能型GUI智能体发展。该数据集突出两大特性:1)长链复杂性(任务含数百步相互依赖的子任务);2)子任务级可验证性(支持多样化探索策略)。覆盖桌面/网页环境五大领域,包含人工标注的130个网页任务轨迹(平均214.4个操作)。实验显示现有智能体在长期任务中存在显著性能差距(平均成功率<10%),凸显需强化规划与决策能力。研究为开发可处理复杂GUI任务的智能体提供了关键基准平台。

2025-08-08 07:00:00 736

原创 【AI论文】细胞锻造(CellForge):虚拟细胞模型的智能体化设计

【摘要】本研究提出CellForge智能系统,通过多智能体框架实现虚拟细胞建模自动化。系统包含任务分析、方法设计和实验执行三大模块,由专家智能体协作完成从原始单细胞数据到优化计算模型的转化。在六个干扰预测任务中,CellForge性能显著优于现有方法(如药物任务Pearson系数提升20%)。研究揭示了多智能体协同设计在复杂生物建模中的优势,同时也指出计算成本较高(单实验0.38-18.9美元)和真实验证不足等局限。这项工作为AI驱动的计算生物学研究提供了新范式。

2025-08-07 18:00:00 837

原创 【AI论文】SitEmb-v1.5:面向语义关联与长篇故事理解的改进型上下文感知密集检索模型

摘要:本研究针对长文档检索增强生成(RAG)中片段依赖上下文的问题,提出情境化嵌入模型(SitEmb)。通过构建书籍情节检索数据集(161万查询-片段对)和残差学习架构,模型在编码短片段时融合上下文信息。实验表明,10亿参数的SitEmb-v1超越多个70-80亿参数模型,80亿参数的SitEmb-v1.5性能再提升10%。研究验证了该方法在多语言和多任务中的有效性,同时指出当前局限:QA数据优化效果优于SA数据,且领域泛化能力待提升。未来将改进训练目标、扩展数据范围,并探索多模态应用。论文链接:2508.

2025-08-07 12:00:00 1262

原创 【AI论文】Qwen-Image 技术报告

摘要:通义千问图像生成模型(Qwen-Image)在复杂文本渲染和精准图像编辑方面取得突破性进展。研究团队设计了完整的数据处理流程,采用渐进式训练策略提升文本渲染能力,并创新性地引入改进的多任务训练范式。模型架构整合多模态大语言模型、变分自编码器和扩散变换器,通过双编码机制实现语义一致性与视觉保真度的平衡。实验结果表明,Qwen-Image在多个基准测试中均达到业界领先水平,特别是在中文文本渲染和图像编辑任务上表现优异。研究同时指出了数据依赖、计算资源需求等当前局限,并提出了数据扩展、模型轻量化等未来研究方

2025-08-07 07:00:00 1039

原创 【AI论文】PixNerd:像素神经场扩散

摘要:本研究提出PixelNerd(像素神经场扩散)模型,通过神经场建模分块解码,实现单尺度、单阶段的端到端图像生成。该方法避免了传统两阶段训练中VAE引入的累积误差和解码伪影,同时在像素空间直接生成高质量图像。在ImageNet数据集上,PixNerd-XL/16在256×256和512×512分辨率下分别达到2.15和2.84的FID分数。拓展至文本生成图像领域后,PixNerd-XXL/16在GenEval和DPG基准测试中表现优异。研究成果表明,该框架在保持计算效率的同时,实现了与潜在空间模型相当的

2025-08-06 18:00:00 688

原创 【AI论文】超越固定模式:面向扩散型大语言模型的变长去噪方法

摘要:扩散型大语言模型(DLLMs)面临静态生成长度限制的关键挑战,导致性能与计算效率的权衡困境。本文提出DAEDAL策略,通过两阶段动态调整机制实现无训练的自适应长度扩展:初始阶段通过序列补全指标迭代扩展大致长度,去噪阶段则精准定位并扩展不足区域。实验表明,该方法在数学推理和代码生成任务中达到或超越固定长度基线性能,同时显著提升有效标记比率(如GSM8K任务从27.7%提升至73.5%),为DLLMs的实际应用提供了更高效的解决方案。

2025-08-06 12:19:08 1322

原创 【AI论文】Cognitive Kernel-Pro:面向深度研究智能体及智能体基础模型训练的框架

摘要:本研究提出CognitiveKernel-Pro——一个完全开源且免费的多模块智能体框架,旨在解决当前闭源智能体系统依赖付费API的问题。研究通过系统化构建高质量训练数据(涵盖网络、文件、代码和推理四个领域),并开发模块化两层代理架构(主代理+子代理),引入反思和投票机制提升鲁棒性。在GAIA平台测试中,80亿参数的开源模型超越了WebDancer等现有系统,在文本子集任务上表现优异。尽管仍依赖Google Search API,该框架为可访问的高性能AI智能体设立了新标准。代码已开源。

2025-08-06 07:00:00 1149

### 【图像生成领域】GPT-ImgEval:评估GPT-4o图像生成能力的全面基准测试系统设计与分析

内容概要:本文介绍了GPT-ImgEval,这是首个全面评估GPT-4o图像生成能力的基准测试工具。GPT-4o是OpenAI最新发布的多模态大模型,在图像生成、编辑和视觉语言推理方面表现出色。GPT-ImgEval从三个关键维度评估GPT-4o:生成质量(通过GenEval数据集)、编辑熟练度(通过Reason-Edit数据集)以及基于世界知识的语义合成(通过WISE数据集)。研究发现,GPT-4o在这些任务上显著超越了现有方法,展示了强大的生成控制能力和输出质量。此外,文章还探讨了GPT-4o可能采用的底层架构,提出了基于分类模型的方法来区分自回归和扩散解码器,并推测其内部使用了扩散头进行图像解码。研究还揭示了GPT-4o在生成过程中的一些局限性,如尺寸不一致、高分辨率和过度细化的限制、复杂场景处理困难等。最后,文章对比了GPT-4o与Gemini 2.0 Flash在多轮图像编辑方面的表现,并讨论了GPT-4o生成图像的安全性和可检测性。 适合人群:对图像生成技术感兴趣的科研人员、开发者和工程师。 使用场景及目标:①评估和比较不同图像生成模型的性能;②深入理解GPT-4o的内部架构及其优缺点;③为未来的研究提供可靠的基准测试工具和方法。 其他说明:GPT-ImgEval提供了详细的定量和定性评估结果,帮助研究人员更好地理解和改进图像生成技术。此外,作者还开源了用于评估GPT-4o的自动化脚本和数据集,以便社区进一步研究和应用。

2025-04-04

### 【计算机视觉】RISEBench:评估推理驱动的视觉编辑能力的基准测试系统设计与分析

内容概要:本文介绍RISEBench——首个用于评估多模态模型(LMMs)推理引导视觉编辑(RISE)能力的基准测试。RISEBench专注于四种关键推理类型:时间推理、因果推理、空间推理和逻辑推理。它提供了一套高质量的测试用例和评价框架,涵盖指令推理、外观一致性以及视觉合理性。研究结果显示,尽管GPT-4o-Native在多个维度上表现最佳,但即使是当前最先进的模型在逻辑推理任务中仍存在明显不足。这突显了逻辑推理作为未来研究的重要方向。此外,RISEBench致力于持续扩展和改进,以支持更全面、可靠且可扩展的下一代多模态系统评估。 适合人群:对多模态模型、计算机视觉及图像生成领域有兴趣的研究人员和技术开发者。 使用场景及目标:①评估不同模型在推理引导视觉编辑任务中的表现;②为研究人员提供一个系统化评估和改进模型推理能力的基础工具;③推动未来多模态模型的发展,特别是在逻辑推理方面的能力提升。 其他说明:RISEBench不仅提供了详细的评分指南,还设计了一个基于LMM的自动评估管道,以确保评价结果的一致性和准确性。此外,作者团队承诺将继续完善该基准测试,使其能够适应更多样化的应用场景和技术进步。

2025-04-04

论文:人工智能基于脑启发智能的多模块智能体设计与挑战:从认知到协作的全基础智能体(Foundation Agents)领域的进展与挑战:从类脑智能到进化型、协作型及安全型系统面综述

内容概要:本文综述了智能体领域从脑启发智能到进化、协作和安全系统的最新进展与挑战。文章首先介绍了大型语言模型(LLMs)的发展及其对智能体设计、评估和持续改进的影响,强调了模块化、脑启发架构的重要性。随后,文章详细探讨了智能体在个人助手系统、游戏环境、机器人流程自动化(RPA)和多媒体内容生成等领域的应用,特别是在视觉感知方面的进步。此外,文中还讨论了智能体面临的挑战,如模型误判、数据集多样性不足、硬件性能差异以及供应链攻击等问题。最后,文章提出了多种应对策略,包括数据增强、不确定性估计、生物启发学习框架等。 适合人群:对人工智能、特别是智能体技术感兴趣的科研人员、工程师和研究生。 使用场景及目标:①了解智能体在不同应用场景中的最新进展;②掌握智能体设计、评估和改进的关键技术和挑战;③探索智能体在未来研究和实际应用中的潜力和发展方向。 其他说明:本文不仅涵盖了智能体的技术细节,还深入探讨了其面临的伦理和安全问题,为未来的研究提供了全面的视角。阅读时应重点关注智能体的设计原则、应用场景和技术挑战,以便更好地理解和应对这一领域的复杂性。

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除