新出炉的高效注意力机制
2025-07-12 23:58:12
886
摘要: 研究表明,在指令微调过程中为提示文本(prompt)分配适当的损失权重有助于提升模型性能。传统方法仅计算回答部分的损失,但实验发现,对短回答任务而言,加入适度的提示损失(权重0.1-0.6)能稳定训练并提升泛化能力,尤其在应对输入噪声和后续对齐训练时表现更优。不同模型架构和任务类型的最佳权重存在差异,但总体趋势表明,合理平衡提示与回答的损失权重(如回答权重0.4-1)优于传统方法。这一发现为优化指令微调提供了新方向。
2025-07-12 23:19:38
732
无监督奖励模型预训练新范式
2025-07-10 14:22:30
807
【冷启动-强化学习-连接器微调】训练强力推理视觉大模型
2025-07-10 14:17:10
933
用策略模型根据正确答案反推思维链,得到更适合RL训练的指导样本
2025-07-07 11:02:58
820
用强化学习优化大模型的总结与信息压缩能力,将超长上下文压缩到固定长度,实现无限上下文的准确处理
2025-07-06 01:19:21
1303
万事开头难:多次采样并保留开头最好的样本,可以显著提高推理任务准确率
2025-07-06 01:14:23
110
利用强化学习使评论模型的评语更优帮助下与针对性,大幅提升LLM自我优化效果
2025-07-04 01:27:41
909
仅靠一千多个样本,便让32B模型接近满血R1的效果
2025-07-04 01:17:26
807
调整训练样本出现顺序,提高训练效果与效率
2025-06-29 16:35:48
776
训练、使用大模型时,尽量避免破折号
2025-06-29 16:27:00
437
提高训练效率的通用trick,规则描述不完美也有效
2025-06-27 13:40:00
749
提升 RM 可解释性、鲁棒性与数据效率
2025-06-27 13:35:27
402
同时实现滑动窗口的速度、全局注意力的效果
2025-06-22 00:45:51
891
成本减半,性能保持97%的 Agent 缓存架构
2025-06-22 00:40:43
835
可用于找回、排序、长文本推理等算法的改进
2025-06-17 23:46:39
671
低成本地从开源强模型中提取通用推理能力,注入到业务模型
2025-06-17 23:41:09
838
结合预训练的规模优势与强化学习的决策优势
2025-06-11 13:31:02
736
使用带理由的奖励模型帮助RL训练
2025-06-08 16:40:57
668
在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习
2025-06-07 23:18:17
980
逻辑分叉、连词是提高推理能力的关键
2025-06-04 11:34:05
1167
对长序列任务强化学习很有帮助
2025-05-30 11:31:23
1280
增强rag能力的预训练模型
2025-05-28 23:26:28
1188
如何通过开源大模型窃取对手的业务数据
2025-05-25 14:53:26
949
检索大模型需要适配检索器的缺陷
2025-05-23 21:59:45
897
让大模型学会自行判断启用何种思考模式,达到最优的性能与效率
2025-05-20 22:47:03
430
软思维链最新方法介绍
2025-05-20 11:31:13
1015
舍弃偏好数据的模糊标签,使用比较预言机探索更新方向
2025-05-13 23:32:33
934
巧妙利用CTE构建nl2sql的过程奖励函数
2025-05-12 17:22:48
1100
基于理性说话人的思想改进检索算法
2025-05-10 19:29:42
1116
中科大,华为诺亚方舟实验室,天津大学ICML 2025接收。
2025-05-08 23:34:22
1771
在不调整位置编码的情况下轻松扩展大模型上下文,简单有效
2025-05-07 11:13:17
1196
对各类提示词压缩方法的总结
2025-05-05 22:36:13
1049
如何提高微调知识注入的效果,缓解过拟合
2025-05-04 23:52:56
1007
GRPO提高大模型工具调用能力
2025-05-03 20:01:07
1271
解耦Agent上下文学习与记忆,实现健壮的工具使用
2025-05-02 19:12:51
1134
基于能量模型优化奖励函数,实现简单
2025-04-25 20:21:26
888
高效、无需领域标记、全自动地搜索出最优数据配比
2025-04-24 11:22:51
981
像调试代码一样debug出导致幻觉的元凶
2025-04-23 10:50:36
1038
投机解码时,动态选择最优的退出层与草稿长度
2025-04-18 01:55:25
1065