自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 资源 (1)
  • 收藏
  • 关注

原创 模拟注意力:少量参数放大 Attention 表征能力

新出炉的高效注意力机制

2025-07-12 23:58:12 886

原创 指令微调时,也要考虑提示损失

摘要: 研究表明,在指令微调过程中为提示文本(prompt)分配适当的损失权重有助于提升模型性能。传统方法仅计算回答部分的损失,但实验发现,对短回答任务而言,加入适度的提示损失(权重0.1-0.6)能稳定训练并提升泛化能力,尤其在应对输入噪声和后续对齐训练时表现更优。不同模型架构和任务类型的最佳权重存在差异,但总体趋势表明,合理平衡提示与回答的损失权重(如回答权重0.4-1)优于传统方法。这一发现为优化指令微调提供了新方向。

2025-07-12 23:19:38 732

原创 上海人工智能实验室开源通用预训练奖励模型 POLAR

无监督奖励模型预训练新范式

2025-07-10 14:22:30 807

原创 天工-R1V3:强化学习打造 VLMs 开源新王

【冷启动-强化学习-连接器微调】训练强力推理视觉大模型

2025-07-10 14:17:10 933

原创 ExPO:按图索骥地教大模型解决复杂推理问题

用策略模型根据正确答案反推思维链,得到更适合RL训练的指导样本

2025-07-07 11:02:58 820

原创 字节 seed 联手清华开源的无限长上下文处理流程

用强化学习优化大模型的总结与信息压缩能力,将超长上下文压缩到固定长度,实现无限上下文的准确处理

2025-07-06 01:19:21 1303

原创 挑选 CoT 第一步最好的样本,提高推理结果准确性

万事开头难:多次采样并保留开头最好的样本,可以显著提高推理任务准确率

2025-07-06 01:14:23 110

原创 批判要有建设性:优化大模型的评价能力

利用强化学习使评论模型的评语更优帮助下与针对性,大幅提升LLM自我优化效果

2025-07-04 01:27:41 909

原创 不用强化学习,SFT也能激发大模型的“啊哈时刻”

仅靠一千多个样本,便让32B模型接近满血R1的效果

2025-07-04 01:17:26 807

原创 微软:提高大模型训练的“数据效能”

调整训练样本出现顺序,提高训练效果与效率

2025-06-29 16:35:48 776

原创 破折号不是个好标点——诱使大模型说胡话

训练、使用大模型时,尽量避免破折号

2025-06-29 16:27:00 437

原创 告诉模型奖励规则,RL效果会更好

提高训练效率的通用trick,规则描述不完美也有效

2025-06-27 13:40:00 749

原创 将偏好数据改造成偏好规则,提高 RL 效果与可解释性

提升 RM 可解释性、鲁棒性与数据效率

2025-06-27 13:35:27 402

原创 Apple新作:结合滑动窗口与线性注意力

同时实现滑动窗口的速度、全局注意力的效果

2025-06-22 00:45:51 891

原创 Agent成本降低46%:缓存规划器的思路模板

成本减半,性能保持97%的 Agent 缓存架构

2025-06-22 00:40:43 835

原创 准确识别检索头,提高大模型长上下文能力

可用于找回、排序、长文本推理等算法的改进

2025-06-17 23:46:39 671

原创 训练成本降低2000倍: 直接将推理能力注入LLM

低成本地从开源强模型中提取通用推理能力,注入到业务模型

2025-06-17 23:41:09 838

原创 RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

2025-06-11 13:31:02 736

原创 推理式奖励模型:使用自然语言反馈改进强化学习效果

使用带理由的奖励模型帮助RL训练

2025-06-08 16:40:57 668

原创 LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习

2025-06-07 23:18:17 980

原创 Qwen团队新发现:大模型推理能力的提高仅由少数高熵 Token 贡献

逻辑分叉、连词是提高推理能力的关键

2025-06-04 11:34:05 1167

原创 SPA: 把RL中的结果奖励归因成过程奖励

对长序列任务强化学习很有帮助

2025-05-30 11:31:23 1280

原创 通义实验室开源针对RAG的预训练框架

增强rag能力的预训练模型

2025-05-28 23:26:28 1188

原创 使用开源大模型,你的业务数据可能被窃取!

如何通过开源大模型窃取对手的业务数据

2025-05-25 14:53:26 949

原创 ConvSearch-R1: 让LLM适应检索器的偏好或缺陷

检索大模型需要适配检索器的缺陷

2025-05-23 21:59:45 897

原创 通过强化学习让大模型自适应开启思考模式

让大模型学会自行判断启用何种思考模式,达到最优的性能与效率

2025-05-20 22:47:03 430

原创 连续空间链式推理与SoftCoT++介绍

软思维链最新方法介绍

2025-05-20 11:31:13 1015

原创 利用比较预言机处理模糊的偏好数据

舍弃偏好数据的模糊标签,使用比较预言机探索更新方向

2025-05-13 23:32:33 934

原创 在Text-to-SQL任务中应用过程奖励模型

巧妙利用CTE构建nl2sql的过程奖励函数

2025-05-12 17:22:48 1100

原创 理性地倾听与表达:检索算法的语言学改进

基于理性说话人的思想改进检索算法

2025-05-10 19:29:42 1116

原创 推测式思维树:让大模型快速完成复杂推理

中科大,华为诺亚方舟实验室,天津大学ICML 2025接收。

2025-05-08 23:34:22 1771

原创 使用频域变换轻松压缩kv-cache

在不调整位置编码的情况下轻松扩展大模型上下文,简单有效

2025-05-07 11:13:17 1196

原创 提示词压缩方法总结与开源工具包

对各类提示词压缩方法的总结

2025-05-05 22:36:13 1049

原创 上下文学习vs微调,DeepMind关于新知识注入效果的对比研究

如何提高微调知识注入的效果,缓解过拟合

2025-05-04 23:52:56 1007

原创 7B模型超越GPT-4o,英伟达开源的function-calling项目

GRPO提高大模型工具调用能力

2025-05-03 20:01:07 1271

原创 把工具调用交给小模型,提高LLM-Agents性能与稳定性

解耦Agent上下文学习与记忆,实现健壮的工具使用

2025-05-02 19:12:51 1134

原创 RL不稳定?模型钻空子?利用能量函数让奖励信号更置信

基于能量模型优化奖励函数,实现简单

2025-04-25 20:21:26 888

原创 英伟达新作,自动搜索LLM预训练的最优数据配比

高效、无需领域标记、全自动地搜索出最优数据配比

2025-04-24 11:22:51 981

原创 大模型为什么会有幻觉?如何溯源造成幻觉的文本?

像调试代码一样debug出导致幻觉的元凶

2025-04-23 10:50:36 1038

原创 大模型推理加速:自适应早退与动态投机长度

投机解码时,动态选择最优的退出层与草稿长度

2025-04-18 01:55:25 1065

几个jar包:org.com、fastjson、httpclient、httpcore、jetty-util

commons-codec-1.6.jar commons-lang-2.6.jar commons-logging-1.1.1.jar fastjson-1.2.15.jar httpclient-4.2.1.jar httpcore-4.2.1.jar jetty-util-9.3.7.v20160115.jar

2019-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除