
transformers
文章平均质量分 80
页页读
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【工程技巧】常用5种位置编码方式总结(附论文出处与原理解析)
本文总结了5种常见的位置编码方式及其特点:1) Sinusoidal(固定正弦编码,适用于NLP);2) Learnable(可学习参数,适合推荐/视频任务);3) Random buffer(随机固定编码,用于图像分割);4) RoPE(旋转编码,支持相对位置,适用于大语言模型);5) 2D Spatial(二维编码,适用于图像任务)。每种方法都从论文出处、设计动机、核心原理和应用场景进行解析,并附物理意义说明。文末对比表直观呈现各编码方式的可学习性、位置支持能力及适用场景,为不同任务的位置编码选择提供参原创 2025-06-20 11:10:53 · 1012 阅读 · 0 评论 -
【GRPO】GRPO原理原文翻译
GRPO(群组相对策略优化)改进了传统 PPO 强化学习,避免了额外的值函数近似计算,使用多个采样输出的平均奖励作为基线,提高 LLM 训练稳定性。迭代 GRPO 通过重放机制持续优化奖励模型。DeepSeekMath-RL 7B 训练基于 GSM8K 和 MATH 数据,强化链式思维推理,取得 88.2% 和 51.7% 的高准确率,超越多个开源及封闭模型。实验表明,GRPO 可提升 LLM 在域内外任务的泛化能力,有效促进强化学习训练的长期改进。原创 2025-02-13 20:30:48 · 1539 阅读 · 0 评论 -
【transformers.Trainer填坑】在自定义compute_metrics时logits和labels数据维度不一致问题
我在使用 transformers.Trainer 训练我的模型时,我自定义了 compute_loss 函数和compute_metrics函数,我的模型是一个简单的二分类模型。这里当 outputs 不是字典时,会把第一个位置的元素offset掉。原创 2025-02-12 17:52:35 · 640 阅读 · 0 评论