自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(161)
  • 收藏
  • 关注

原创 小型语言模型:智能体AI的未来?

本文解读NVIDIA研究团队论文,颠覆“越大越好”的语言模型认知,论证小型语言模型(SLMs)在智能体AI(Agentic AI)中的性能、经济性与适配性优势,结合案例与迁移算法,为Agentic系统低成本部署提供思路,回应行业对LLM依赖的惯性挑战。

2025-09-09 22:42:50 670

原创 Agentic RL Survey: 从被动生成到自主决策

本文将系统解读《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》这篇综述。该综述首次将智能体强化学习(Agentic RL)与传统LLM-RL范式正式区分,通过MDP/POMDP理论框架梳理其核心特征,并从“智能体能力”与“任务场景”双维度构建分类体系,同时整合开源环境、框架与基准,为LLM基自主智能体的研究提供清晰路线图。

2025-09-08 23:24:38 846

原创 VERLTOOL:打通LLM工具强化学习的“任督二脉”,实现多模态多任务统一训练

本文将聚焦VERLTOOL框架——一款专为智能体工具强化学习(ARLT)设计的开源系统。它解决了现有工具强化学习代码库碎片化、同步执行效率低、跨领域扩展性差的痛点,通过上游对齐VERL、统一工具管理、异步轨迹执行等核心设计,在数学推理、知识问答等6大任务中表现比肩专用系统,为LLM工具强化学习研究提供了高效、可扩展的基础设施。

2025-09-05 00:33:32 696

原创 14.6倍效率提升!AWorld框架如何破解智能体训练的数据生成瓶颈?

本文将深入解析开源框架AWorld——一款专为智能体(Agentic AI)“从实践中学习”设计的基础设施。它通过分布式架构突破经验生成效率瓶颈,使基于Qwen3-32B的智能体在GAIA基准测试中pass@1准确率达32.23%,超越GPT-4o(27.91%),为复杂任务下智能体的规模化训练提供了可落地的完整方案。

2025-09-04 00:04:12 695

原创 提升文本到图像强化学习稳定性:Pref - GRPO算法如何革新图像生成?

在文本到图像生成领域,强化学习正重塑着模型与人类偏好的对齐方式。本文聚焦于一种创新的基于成对偏好奖励的GRPO方法(Pref - GRPO),它通过将优化目标从分数最大化转向偏好拟合,在稳定训练、规避奖励破解等方面取得显著进展,为高质量图像生成提供了新的技术路径。

2025-09-03 01:00:57 978

原创 深度广度协同:自适应探索如何释放RLVR中LLM的推理潜能?

在本文中,我们将深入探讨一种创新性的方法,即通过自适应探索策略来实现深度与广度的协同,从而充分释放大规模语言模型(LLM)在可验证奖励强化学习(RLVR)中的推理能力。这种方法有效解决了传统算法在处理复杂推理任务时的局限性,为提升LLM的推理表现开辟了新途径。

2025-08-26 00:45:48 562

原创 Agent Lightning:让任何AI智能体通过强化学习实现高效训练

本文将深入解析微软研究院提出的Agent Lightning框架,该框架实现了智能体执行与强化学习训练的完全解耦,能无缝集成各类现有智能体,无需大量代码修改即可进行训练。通过创新的层级RL算法和系统架构,为真实世界智能体的训练与部署提供了新可能。

2025-08-23 16:59:41 831

原创 稳定且高效:GSPO如何革新大型语言模型的强化学习训练?

本文将介绍Group Sequence Policy Optimization (GSPO),一种用于训练大型语言模型的稳定、高效且性能优异的强化学习算法。与之前采用token级重要性比率的算法不同,GSPO基于序列似然定义重要性比率,并执行序列级裁剪、奖励和优化,在Qwen3模型训练中取得了显著效果。

2025-08-15 22:53:27 785

原创 LitePPO:揭秘RL优化LLM数学推理的_技巧陷阱_与极简解决方案

本文系统分析了强化学习(RL)优化大语言模型(LLM)数学推理任务中的技术碎片化问题,通过统一实验框架验证了主流RL技巧的适用边界,并提出仅需两种核心技巧组合的LitePPO方案。研究发现优势归一化与token级损失聚合的极简组合,在6个数学基准测试中平均准确率超越GRPO/DAPO等复杂算法,为RL4LLM领域提供了清晰的工程指南。

2025-08-14 00:30:00 629

原创 隐藏的分布鸿沟:高效RL框架悄悄引入了Off-Policy RL训练

本文揭示了现代强化学习框架中一个被忽视的关键问题:由于推理引擎(如vLLM)与训练后端(如FSDP)的实现差异,本应是on-policy的RL训练实际变成了off-policy。文章提出一种基于截断重要性采样的解决方案,有效弥补了这一系统级鸿沟,在多个实验中显著提升了训练性能。

2025-08-08 00:45:53 639

原创 GEM_ 迈向通用LLM智能体训练新纪元

本文将介绍开源框架GEM(General Experience Maker),它为大型大语言模型(LLM)智能体提供了标准化的环境模拟平台,支持多任务、多工具集成及灵活的强化学习训练。通过统一接口与多样化环境,GEM解决了现有框架中环境与训练耦合的问题,为通用智能体研究提供了强大工具。

2025-08-04 22:29:12 1001

原创 ARPO:让LLM智能体更高效探索

本文将聚焦Agentic Reinforced Policy Optimization(ARPO)算法,它针对大型语言模型在多轮工具交互中存在的不确定性问题,提出熵基自适应采样与优势归因估计策略。在13项基准测试中,ARPO不仅性能超越传统方法,还能节省一半工具使用预算,为LLM与动态环境的高效对齐提供新方向。

2025-08-03 19:09:50 971

原创 Agent RL Scaling Law_ 当AI学会自己写代码解题

大型语言模型在数学推理上常栽跟头,而这篇论文提出的ZeroTIR方法让模型通过强化学习自主学会用Python代码解题。更关键的是,它发现了训练过程中代码使用频率、响应长度与准确率的可预测规律,为AI自主工具使用提供了新视角。

2025-07-24 00:28:11 947

原创 DistFlow:Fully Distributed LLM RL训练框架

在大语言模型训练中,强化学习(RL)是提升模型推理能力与价值对齐的关键。本文解析DistFlow框架如何通过全分布式架构消除单节点瓶颈,实现近线性扩展至千级GPU,吞吐量较主流框架提升7倍,为大规模RL训练提供全新解决方案。

2025-07-23 00:08:52 931

原创 KORGym:评估大语言模型推理能力的动态游戏平台

现有评估基准多受领域限制或 pretraining 数据影响,难以精准测LLMs内在推理能力。KORGym平台应运而生,含50余款游戏,多维度评估,本文将深入解析其设计、框架、实验及发现。

2025-07-18 01:00:46 469

原创 rLLM:用于LLM Agent RL后训练的创新框架

本文介绍了rLLM,一个用于语言智能体后训练的可扩展框架。它能让用户轻松构建自定义智能体与环境,通过强化学习进行训练并部署。文中还展示了用其训练的DeepSWE等智能体的出色表现,以及rLLM未来的发展方向,值得关注。

2025-07-16 23:41:13 996

原创 DeepSWE:通过强化学习扩展训练开源编码智能体

本文聚焦于DeepSWE-Preview这一仅通过强化学习训练的推理编码智能体。详细阐述其在软件工程任务中的训练方法、测试策略及评估结果,深入分析其涌现行为,还分享了训练中未成功的尝试,并展望未来工作。为智能体扩展和强化学习在编码领域的发展提供了全面且深入的参考。

2025-07-15 23:53:42 590

原创 突破长文本处理瓶颈:MemAgent 如何让大模型高效应对 350 万 tokens 上下文?

长文本处理一直是大语言模型的难题,现有方法在处理超长篇文档时性能骤降。字节跳动与清华团队提出的MemAgent,借鉴人类记忆机制,用强化学习训练动态记忆模块,实现线性复杂度下的近无损性能扩展,为超长文本处理开辟新路径。

2025-07-14 23:03:42 454

原创 ReMA:让大模型学会 _Meta-think_,多智能体强化学习如何突破推理瓶颈?

大语言模型(LLMs)的推理能力持续进步,但单一智能体架构在元思考能力培养上存在局限。本文解析的ReMA框架,通过多智能体强化学习(MARL)将推理过程拆解为高层元思考与低层执行,在数学推理等任务中展现出显著优势,为提升LLMs的复杂问题解决能力提供了新思路。

2025-07-10 00:51:00 1037

原创 AsyncFlow:释放LLM后训练效率的异步流RL框架

随着大语言模型预训练数据逼近枯竭,后训练成为提升能力的关键。AsyncFlow作为新型异步流强化学习框架,通过分布式数据管理、异步工作流优化和灵活接口设计,解决传统框架瓶颈,实现平均1.59倍吞吐量提升,为下一代RL训练系统提供新思路。

2025-07-09 00:44:54 883

原创 L0:让大模型成为通用智能体的强化学习新范式

在AI智能体研究领域,如何让大语言模型高效完成多轮、长周期任务仍是难题。本文将解读论文L0,其提出的端到端训练 pipeline 与 NB-Agent 架构,通过强化学习显著提升模型在问答任务上的表现,为通用智能体发展提供新思路。

2025-07-07 23:31:31 953

原创 大语言模型的开源强化学习库

本文深入探讨了大语言模型(LLMs)的开源强化学习(RL)库。分析了多个主流RL库的特性、优缺点及适用场景,帮助研究者和从业者在众多工具中做出明智选择,以满足不同的研究和生产需求。

2025-07-04 23:50:24 461

原创 SimpleTIR:多轮工具集成推理的端到端强化学习突破

本文介绍了SimpleTIR,一种用于多轮工具集成推理(Multi-Turn Tool-Integrated Reasoning, TIR)的端到端强化学习算法。它有效解决了多轮TIR训练中的不稳定问题,在数学推理任务上表现出色,展示了强大的推理能力和多样化的推理模式。

2025-07-03 00:06:14 749

原创 LOOP如何让长周期交互LLM代理在复杂环境中实现突破?

在AI与现实交互需求日益增长的今天,交互式数字代理(IDA)在多应用、多领域的复杂环境中表现仍有提升空间。本文提出的LOOP框架,通过强化学习(RL)让LLM代理在长周期交互中实现高效训练,在AppWorld基准测试中超越一众强基线,一起来探索这一突破性进展!

2025-06-25 23:51:41 762

原创 Kimi-Researcher:端到端强化学习驱动自主智能体的多轮搜索与推理突破

本文聚焦Kimi-Researcher,这一通过端到端强化学习(RL)训练的自主智能体,在多轮搜索推理中展现卓越能力。它在复杂基准测试中表现亮眼,为智能体发展提供新思路,一起来探索其技术奥秘与成果。

2025-06-23 22:50:08 988

原创 跨域视角下强化学习重塑大模型推理:GURU框架与多领域推理新突破

大语言模型(LLM)推理能力的提升是AI领域的重要方向,强化学习(RL)为此提供了新思路。本文提出的GURU框架,通过构建跨领域RL推理语料库,系统性地重新审视了RL在LLM推理中的应用,在多个推理任务上实现性能突破,为通用推理研究带来新启示。

2025-06-22 22:41:28 989

原创 突破PPO训练效率瓶颈!字节跳动提出T-PPO,推理LLM训练速度提升2.5倍

在大语言模型(LLM)通过长思维链(CoT)展现出强大推理能力的当下,强化学习(RL)作为关键技术却面临训练效率难题。本文将介绍字节跳动提出的Truncated Proximal Policy Optimization(T-PPO),其通过创新方法提升训练效率,在AIME 2024基准测试中表现亮眼,一起来了解这一重要进展。

2025-06-21 17:22:04 720

原创 LLM推理 reproducibility 危机:FP32 能否成为拯救者?

大语言模型(LLMs)在各领域表现亮眼,但其性能 reproducibility 问题却常被忽视。本文揭示,系统配置如 batch size、GPU 数量和型号的改变,会导致生成响应显著差异,尤其在推理模型中。作者深入探究背后原因,并提出 LayerCast 方案,为 LLM 推理的 reproducibility 问题提供了新思路。

2025-06-20 00:07:47 994

原创 突破长文本限制!ParallelComp 如何让大模型实现 128K 超长上下文推理?

大语言模型在处理超长文本时常常面临内存瓶颈和注意力偏差等挑战。今天要分享的论文提出了ParallelComp方法,无需重新训练,就能让80亿参数模型在单卡上实现从8K到128K的上下文外推,性能直逼GPT-4,一起来看看这个突破性的技术吧!

2025-06-16 23:33:29 766

原创 RL中KL散度梯度估计的常见陷阱与正确实现方法

本文聚焦RL训练LLM时KL散度梯度估计的实现问题,指出两大常见陷阱,通过实验验证其影响并给出正确实现方式,对理解和优化RLHF训练有重要参考价值。

2025-06-14 19:19:50 901

原创 Mistral重磅推出Magistral:纯RL训练推理模型的突破与多模态能力新发现

在大语言模型推理能力研究火热的当下,Mistral发布首篇推理模型论文《Magistral》。其基于纯强化学习(RL)训练框架,不依赖现有推理模型蒸馏,在数学推理、代码生成等任务上实现显著提升,还意外发现RL能增强多模态理解能力,一起来深入探究这一突破性成果。

2025-06-12 01:01:55 820

原创 LlamaRL重磅来袭!Meta全新分布式异步强化学习框架如何破解大规模LLM训练难题?

在大语言模型(LLM)蓬勃发展的今天,强化学习(RL)已成为提升LLM性能的关键后训练手段。然而,高效管理数百亿至数万亿参数的策略模型面临巨大挑战。本文将解读Meta推出的LlamaRL框架,它通过创新设计实现大规模LLM的高效训练,一起来探索其技术奥秘吧!

2025-06-10 00:49:47 624

原创 突破同步训练瓶颈!AReaL如何实现大规模异步强化学习系统的高效语言推理?

在大语言模型(LLM)借助强化学习(RL)提升推理能力的浪潮中,训练效率成为关键挑战。本文介绍的AReaL系统,通过完全解耦生成与训练的异步设计,在数学和代码推理任务上实现高达2.77倍的训练加速,同时性能不减反增,为大规模RL训练开辟了新路径。

2025-06-08 16:32:08 870

原创 SWE-Dev:开启自主特征驱动软件开发新纪元,重新定义大模型编码能力边界

在大语言模型(LLM)席卷软件工程领域的当下,代码补全、漏洞修复等任务已取得显著进展,但真实场景中占比高达40%的特征驱动开发(FDD)却长期被忽视。论文提出的SWE-Dev数据集,如同为AI编码系统打造的"实战训练场",不仅填补了这一空白,更通过14000个训练样本与500个测试样本,揭示了当前AI在复杂软件开发中的能力天花板与突破路径。

2025-06-07 19:29:13 1158

原创 阿里巴巴ROLL:大规模强化学习优化的高效易用解决方案

在强化学习(RL)推动大语言模型(LLM)发展的浪潮中,训练框架面临效率、扩展性和易用性的多重挑战。阿里巴巴推出的 ROLL 框架,通过模块化设计与关键技术创新,为大规模 RL 优化提供了高效且用户友好的解决方案,特别是针对agentic rl进行了特有的工程设计,一起来深入了解这一创新性成果吧!

2025-06-07 16:56:01 1222

原创 R1-Searcher++新突破!强化学习如何赋能大模型动态知识获取?

大语言模型(LLM)虽强大却易因静态知识产生幻觉,检索增强生成(RAG)技术成破局关键。本文将解读R1-Searcher++框架,看其如何通过两阶段训练策略,让LLM智能融合内外知识,实现高效推理,为AI知识获取开辟新路径。

2025-06-03 23:02:32 921

原创 SPA-RL:通过Stepwise Progress Attribution训练LLM智能体

在大语言模型(LLM)驱动智能体发展的浪潮中,强化学习(RL)面临着延迟奖励这一关键挑战。本文提出的SPA-RL框架,通过创新的分步进度归因机制,将最终奖励分解为细粒度的中间信号,为LLM智能体训练带来了突破性进展,在多个基准任务上刷新了性能上限,一起来探索这一前沿成果!

2025-06-01 17:49:42 818

原创 长上下文推理新范式!QwenLong-L1如何通过强化学习突破大模型语境局限?

在大模型推理能力不断精进的今天,长上下文处理仍是亟待突破的难题。本文介绍的QwenLong-L1框架,借助渐进式语境扩展与强化学习,成功让大模型在长文档理解任务中实现性能跃升,其32B模型性能比肩Claude-3.7,为长上下文推理模型的发展开辟了新路径。

2025-06-01 15:21:39 841

原创 颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?

大语言模型(LLM)的训练往往依赖大量标注数据与复杂奖励设计,但最新研究发现,仅用1条无标注数据和10步优化的熵最小化(EM)方法,竟能在数学推理任务上超越传统强化学习(RL)。这一突破性成果或将改写LLM的训练规则,快来了解这场效率革命!

2025-05-31 16:41:37 860

原创 SLOT:测试时样本专属语言模型优化,让大模型推理更精准!

大语言模型(LLM)在复杂指令处理上常显不足,本文提出SLOT方法,通过轻量级测试时优化,让模型更贴合单个提示。实验显示,SLOT在多个基准测试中显著提升模型性能,为大模型推理优化提供新思路。

2025-05-27 23:45:16 1053

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除