大模型训练 Learning rate warmup, cosine decay and gradient clipping

最新推荐文章于 2025-08-20 22:56:05 发布

原创

最新推荐文章于 2025-08-20 22:56:05 发布 · 427 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

1. 学习率Warm up

在训练复杂的模型时，使用学习率热身可以帮助训练稳定。在学习率热身中，我们逐渐增加学习率，从一个非常低的值inital_lr逐渐到用户定义的最大学习率peak_lr。

n_epochs = 15
initial_lr = 0.0001
peak_lr = 0.01

total_steps = len(train_loader) * n_epochs
warmup_steps = int(0.2 * total_steps) # 20% warmup
<

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

volcanical

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

大模型微调经验关键参数总结

weixin_45320238的博客

10-21

1699

batch_size、accumulation_steps、warmup_ratio、learning_rate与epoch对大模型的性能影响及参数间关系

模型调优：warm_up【针对学习率优化的一种方式：在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps之后再修改为预先设置的学习率来进行训练】

热门推荐

u013250861的博客

01-01

1万+

Warmup是针对学习率优化的一种方式，Warmup是在ResNet论文中提到的一种学习率预热的方法，它在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches,再修改为预先设置的学习率来进行训练。

参与评论您还未登录，请先登录后发表或查看评论

小红书大模型二面：“为什么大模型训练都需要 warm up 阶段？

2401_85390073的博客

03-26

566

为什么大模型训练都需要 warm up？

Pytorch自定义warmup+consine decay+周期变化+全局decay学习率

weixin_43947348的博客

11-10

2769

import torch import numpy as np from torchvision.models import AlexNet from torch.optim.lr_scheduler import CosineAnnealingLR,OneCycleLR, CosineAnnealingWarmRestarts import matplotlib.pyplot as plt from torch.optim.lr_scheduler import LambdaLR def circle.

模型训练----warm-up

Kelly_Ai_Bai的博客

12-13

683

动量，在训练过程中会依赖一些历史的统计值。但是在网络训练的初期，迭代次数比较少，统计的历史值可能不正确，只有迭代到一定的次数后统计值才会真正得有意义，所以一开始要使用较小的学习率通过 warm-up 慢慢地增大学习率。在训练刚开始的时候，所有的模型参数都是随机的，离最终的训练结果相差是比较远的。如果一开始就采用较大的学习率可能会导致数值的不稳定，也就是导致训练过程不稳定。，warm-up的出现主要是为了。

大模型训练的关键技术之微调

python1234567_的博客

08-06

975

概览介绍了大模型训练的微调方法，包括prompt tuning、prefix tuning、LoRA、p-tuning和AdaLoRA等。介绍了使用deepspeed和LoRA进行大模型训练的相关代码。给出了petals的介绍，它可以将模型划分为多个块，每个用户的机器负责其中一块，分摊了计算压力。理解篇固定预训练参数，为每一个任务额外添加一个或多个embedding，之后拼接query正常输入LLM，并只训练这些embedding。

【深度学习】深度学习模型训练的tricks总结

无极阁

04-30

6865

得到更改的准确率模型的设计自然是重要，而使用一些数据处理和训练的技巧也能提高最终模型的训练效果，因此也十分重要。本文基于对一些资料的阅读总结一些模型训练常见的trick，能够更快地拟合以及在一定程度上提升模型效果。

Warmup 模型训练之标配

ze1336365763的博客

01-07

1715

学习率的调节策略等间隔调整学习率 StepLR 按需调整学习率 MultiStepLR 指数衰减调整学习率 ExponentialLR 弦退火调整学习率 CosineAnnealingLR 自适应调整学习率 ReduceLROnPlateau 自定义调整学习率 LambdaLR Warmup 使用然而在顶会论文和知名比赛中，作者一般都不会直接使用上述学习率调整策略，而是先预热模型（warm up）, warm up是深度学习炼丹时常用的一种手段，由于一开始参数不稳定，梯度较大，如

Pytorch实现Warm up + Cosine Anneal LR

qq_40268672的博客

11-04

4081

Warm up warm up是深度学习炼丹时常用的一种手段，由于一开始参数不稳定，梯度较大，如果此时学习率设置过大可能导致数值不稳定。使用warm up有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳，其次也有助于保持模型深层的稳定性。 Cosine Anneal import matplotlib.pyplot as plt import math import torch from torchvision.models import resnet18 ...

Bot 流量“假阳性”调优笔记

@云安全小杜

08-19

616

这次实验最大的收获是：与其在规则里“猜”爬虫长什么样，不如把判断逻辑外置到一个能持续学习的边缘节点。群联的清洗中心提供了实时封禁 API，让我们可以把模型结果直接落地，而不用改一行业务代码——这比传统“先打日志、再人工加黑名单”的节奏快了整整一个量级。

XR（AR/VR/MR）芯片方案，Soc VS “MCU+协处理器”？

houdou112358的博客

08-20

580

本文分析了当前VR/AR/MR设备的主流芯片方案，主要分为SoC（系统级芯片）和MCU+协处理器两种架构。高端VR/MR设备普遍采用高通XR系列或苹果M系列等高性能SoC，而轻量级AR/AI眼镜则多使用低功耗SoC或MCU+AI协处理器方案。文章详细比较了不同设备类型的芯片需求，并介绍了高通、苹果、联发科等主要芯片厂商的XR产品线及其特点，最后总结了不同应用场景下的最佳芯片选择方案。

门控循环单元（GRU, Gated Recurrent Unit）

2501_91641025的博客

08-20

271

门控循环单元（GRU, Gated Recurrent Unit）是循环神经网络（RNN）的一种改进结构，由 Cho 等人在 2014 年提出。它和 LSTM 一样，旨在解决RNN 的梯度消失和梯度爆炸问题，同时能够建模长距离依赖信息。与 LSTM 相比，GRU 结构更简洁，参数更少，计算效率更高。GRU 是 LSTM 的简化版，在很多任务上能取得相似甚至更好的效果。优点：计算效率高、参数量少、适合大规模训练。缺点：缺少独立记忆单元，在极长序列任务中可能稍逊于 LSTM。在实际应用中，

Huggingface-Qwen2源码解读

Jeremy程序员

08-19

970

本文记录了基于HuggingFace Transformers最新master分支对Qwen2模型的学习过程。主要内容包括：1) 开发环境搭建（Python 3.11、PyTorch CPU版）；2) 模型测试代码实现，通过调参创建轻量级配置；3) 核心架构分析，包括分词编码、DecoderLayer处理流程（RMSNorm归一化、自注意力机制、前馈网络）和分组查询注意力机制；4) Qwen2的三大优化点：RMSNorm计算优化、RoPE位置编码和GQA注意力机制；5) 开发中遇到的版本依赖问题及解决方法。

【无标题】

最新发布

As3310010的博客

08-20

435

从基础功能到自主决策：Agent 开发进阶之路

CEVA-BX, Cadence HiFi, ARM ，TI， ADI 这5种音频DSP选型

2401_89373706的博客

08-20

665

本文对比了CEVA-BX、Cadence HiFi和ARM Cortex-M三类音频DSP的核心特性及应用场景。CEVA-BX是通用混合DSP/控制器，适合需要兼顾信号处理与控制的IoT、汽车等应用；Cadence HiFi专精音频处理，在降噪、编解码等场景性能突出；带DSP扩展的ARM Cortex-M系列则平衡控制与处理，适合轻量音频任务。选型需综合考量性能需求、开发资源、功耗成本等因素：专业音频选HiFi，复杂混合任务选CEVA-BX，简单音频处理优先ARM方案。

百度Q2财报：总营收327亿 AI新业务收入首次超100亿

大力财经

08-20

184

百度创始人李彦宏表示，本季度内，百度加速推进搜索的AI转型与萝卜快跑全球化进程，“百度始终聚焦于那些最具长期价值创造潜力的AI新领域，让我们的技术与创新，产生最具意义和持久的影响。8月20日晚，百度发布2025年第二季度财报，显示季度总营收327亿元，百度核心营收263亿元，归属百度核心净利润74亿元，同比增长35%。据介绍，百度智能云在Q2增长显著。今年6月，文心大模型4.5系列开源，发布了10款不同架构和尺寸的新模型，企业和开发者可通过百度智能云千帆大模型平台调用文心4.5系列的API服务。

LLM（大语言模型）的工作原理图文讲解

m0_59167353的博客

08-19

744

本文介绍了大语言模型(LLM)的核心运作机制。首先解释了条件概率的基础概念，即LLM根据上下文预测下一个词的概率分布。其次说明LLM通过海量文本训练学习高维词序列概率分布，形成预测能力。接着重点讨论了温度(Temperature)参数的妙用，它通过调节softmax函数控制输出多样性，避免机械重复。最后用表格总结LLM三大核心机制：条件概率是预测基础，权重矩阵构成预测核心，温度参数调节输出风格。全文简明扼要地阐述了LLM如何"看着上下文写出下一个词"的技术原理。

计算图的力量：从 PyTorch 动态图到 TensorFlow 静态图的全景与实战

windowshht的博客

08-15

820

计算图是深度学习的核心抽象，动态图与静态图各有优势。本文对比PyTorch动态图和TensorFlow静态图的特点：PyTorch即时构建计算图，调试友好；TensorFlow先定义完整图再执行，适合优化和部署。实践部分展示了PyTorch的自动求导和TensorFlow的tf.function转换，重点分析了控制流处理的差异。作者建议训练用动态图灵活开发，推理用静态图提升性能，并提供了两种框架下的代码示例和工程优化建议。

Simple o3 Towards Interleaved Vision-Language Reasoning

m0_60388871的博客

08-19

655

论文日报

模型的训练策略之cosine learning rate decay

06-13

Cosine learning rate decay 是一种用于优化深度学习模型的训练策略之一。它的基本思想是在训练过程中，随着训练步数的增加，将学习率按照余弦函数的形式进行衰减，以达到更加平滑的学习率变化和更好的收敛效果。 ...