自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_36671160的博客

原创模拟注意力：少量参数放大 Attention 表征能力

新出炉的高效注意力机制

2025-07-12 23:58:12 886

原创指令微调时，也要考虑提示损失

摘要：研究表明，在指令微调过程中为提示文本（prompt）分配适当的损失权重有助于提升模型性能。传统方法仅计算回答部分的损失，但实验发现，对短回答任务而言，加入适度的提示损失（权重0.1-0.6）能稳定训练并提升泛化能力，尤其在应对输入噪声和后续对齐训练时表现更优。不同模型架构和任务类型的最佳权重存在差异，但总体趋势表明，合理平衡提示与回答的损失权重（如回答权重0.4-1）优于传统方法。这一发现为优化指令微调提供了新方向。

2025-07-12 23:19:38 732

原创上海人工智能实验室开源通用预训练奖励模型 POLAR

无监督奖励模型预训练新范式

2025-07-10 14:22:30 807

原创天工-R1V3：强化学习打造 VLMs 开源新王

【冷启动-强化学习-连接器微调】训练强力推理视觉大模型

2025-07-10 14:17:10 933

原创 ExPO：按图索骥地教大模型解决复杂推理问题

用策略模型根据正确答案反推思维链，得到更适合RL训练的指导样本

2025-07-07 11:02:58 820

原创字节 seed 联手清华开源的无限长上下文处理流程

用强化学习优化大模型的总结与信息压缩能力，将超长上下文压缩到固定长度，实现无限上下文的准确处理

2025-07-06 01:19:21 1303

原创挑选 CoT 第一步最好的样本，提高推理结果准确性

万事开头难：多次采样并保留开头最好的样本，可以显著提高推理任务准确率

2025-07-06 01:14:23 110

原创批判要有建设性：优化大模型的评价能力

利用强化学习使评论模型的评语更优帮助下与针对性，大幅提升LLM自我优化效果

2025-07-04 01:27:41 909

原创不用强化学习，SFT也能激发大模型的“啊哈时刻”

仅靠一千多个样本，便让32B模型接近满血R1的效果

2025-07-04 01:17:26 807

原创微软：提高大模型训练的“数据效能”

调整训练样本出现顺序，提高训练效果与效率

2025-06-29 16:35:48 776

原创破折号不是个好标点——诱使大模型说胡话

训练、使用大模型时，尽量避免破折号

2025-06-29 16:27:00 437

原创告诉模型奖励规则，RL效果会更好

提高训练效率的通用trick，规则描述不完美也有效

2025-06-27 13:40:00 749

原创将偏好数据改造成偏好规则，提高 RL 效果与可解释性

提升 RM 可解释性、鲁棒性与数据效率

2025-06-27 13:35:27 402

原创 Apple新作：结合滑动窗口与线性注意力

同时实现滑动窗口的速度、全局注意力的效果

2025-06-22 00:45:51 891

原创 Agent成本降低46%：缓存规划器的思路模板

成本减半，性能保持97%的 Agent 缓存架构

2025-06-22 00:40:43 835

原创准确识别检索头，提高大模型长上下文能力

可用于找回、排序、长文本推理等算法的改进

2025-06-17 23:46:39 671

原创训练成本降低2000倍: 直接将推理能力注入LLM

低成本地从开源强模型中提取通用推理能力，注入到业务模型

2025-06-17 23:41:09 838

原创 RPT：拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

2025-06-11 13:31:02 736

原创推理式奖励模型：使用自然语言反馈改进强化学习效果

使用带理由的奖励模型帮助RL训练

2025-06-08 16:40:57 668

原创 LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型，让policy在探索的同时也模仿学习

2025-06-07 23:18:17 980

原创 Qwen团队新发现：大模型推理能力的提高仅由少数高熵 Token 贡献

逻辑分叉、连词是提高推理能力的关键

2025-06-04 11:34:05 1167

原创 SPA: 把RL中的结果奖励归因成过程奖励

对长序列任务强化学习很有帮助

2025-05-30 11:31:23 1280

原创通义实验室开源针对RAG的预训练框架

增强rag能力的预训练模型

2025-05-28 23:26:28 1188

原创使用开源大模型，你的业务数据可能被窃取！

如何通过开源大模型窃取对手的业务数据

2025-05-25 14:53:26 949

原创 ConvSearch-R1: 让LLM适应检索器的偏好或缺陷

检索大模型需要适配检索器的缺陷

2025-05-23 21:59:45 897

原创通过强化学习让大模型自适应开启思考模式

让大模型学会自行判断启用何种思考模式，达到最优的性能与效率

2025-05-20 22:47:03 430

原创连续空间链式推理与SoftCoT++介绍

软思维链最新方法介绍

2025-05-20 11:31:13 1015

原创利用比较预言机处理模糊的偏好数据

舍弃偏好数据的模糊标签，使用比较预言机探索更新方向

2025-05-13 23:32:33 934

原创在Text-to-SQL任务中应用过程奖励模型

巧妙利用CTE构建nl2sql的过程奖励函数

2025-05-12 17:22:48 1100

原创理性地倾听与表达：检索算法的语言学改进

基于理性说话人的思想改进检索算法

2025-05-10 19:29:42 1116

原创推测式思维树：让大模型快速完成复杂推理

中科大，华为诺亚方舟实验室，天津大学ICML 2025接收。

2025-05-08 23:34:22 1771

原创使用频域变换轻松压缩kv-cache

在不调整位置编码的情况下轻松扩展大模型上下文，简单有效

2025-05-07 11:13:17 1196

原创提示词压缩方法总结与开源工具包

对各类提示词压缩方法的总结

2025-05-05 22:36:13 1049

原创上下文学习vs微调，DeepMind关于新知识注入效果的对比研究

如何提高微调知识注入的效果，缓解过拟合

2025-05-04 23:52:56 1007

原创 7B模型超越GPT-4o，英伟达开源的function-calling项目

GRPO提高大模型工具调用能力

2025-05-03 20:01:07 1271

原创把工具调用交给小模型，提高LLM-Agents性能与稳定性

解耦Agent上下文学习与记忆，实现健壮的工具使用

2025-05-02 19:12:51 1134

原创 RL不稳定？模型钻空子？利用能量函数让奖励信号更置信

基于能量模型优化奖励函数，实现简单

2025-04-25 20:21:26 888

原创英伟达新作，自动搜索LLM预训练的最优数据配比

高效、无需领域标记、全自动地搜索出最优数据配比

2025-04-24 11:22:51 981

原创大模型为什么会有幻觉？如何溯源造成幻觉的文本？

像调试代码一样debug出导致幻觉的元凶

2025-04-23 10:50:36 1038

原创大模型推理加速：自适应早退与动态投机长度

投机解码时，动态选择最优的退出层与草稿长度

2025-04-18 01:55:25 1065

几个jar包：org.com、fastjson、httpclient、httpcore、jetty-util

commons-codec-1.6.jar commons-lang-2.6.jar commons-logging-1.1.1.jar fastjson-1.2.15.jar httpclient-4.2.1.jar httpcore-4.2.1.jar jetty-util-9.3.7.v20160115.jar

2019-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除