TTRL(Test-Time RL)微调新方法：极简版RL，效果吊打SFT

Python_金钱豹

于 2025-06-24 20:47:13 发布

阅读量929

点赞数 13

CC 4.0 BY-SA版权

文章标签：人工智能算法数据结构深度学习机器学习

本文链接：https://blog.csdn.net/Python_cocola/article/details/148879275

聚焦：提出的TTRL（Test-Time强化学习）给出了答案：*让AI自己生成答案，通过“投票”选出共识，再用共识作为奖励信号驱动学习。*

TTRL的核心流程——模型生成多个答案，投票选出最佳，再根据投票结果优化自身

方法精讲：

训练流程

- 输入处理：给定一个提示x，LLM会对其进行处理以生成响应。
- 多次采样：模型通过从其策略πθ(y|x)中采样来生成N个候选输出{y₁, y₂, …, yₙ}。
- 共识形成：应用多数投票来确定最常见的答案y*，作为正确答案的代理。
- 奖励计算：每个采样的输出都会根据其与共识答案的一致性获得奖励（如果匹配，则为1；否则为0）。
- 策略优化：使用诸如PPO或GRPO之类的RL算法更新模型的参数θ，以最大化预期奖励。

简单概括：利用LLM自身的采样生成特点，生成多条答案，基于Rule-Based Reward策略（策略伪代码如下）得到最优的答案，更新优化LLM的参数，目标就是期望最大化。

应用层面直觉上是可行，但是：

我得生成多少个答案呢？这个地方随机性还是比较高的，有不稳定的风险
原始的LLM效果还得不能太差，比如一个通用LLM直接应用于某高P的场景，如果效果本身就不太好，感觉这个方法就很鸡肋了，适合：精调阶段，比如模型在某个场景本身有90%的准确率了，要提升到93%

性能评估：

效果上杠杠的，感觉是因为在代码/math场景，该类场景本身就有其特殊性，不知道扩展到比如：客服、金融等场景，特别是那种不需要Long-CoT的场景。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述