【Hugging Face】transformers.optimization 中的 get_scheduler() 函数: 学习率调度器

Hugging Face transformers.optimization 中的 get_scheduler 函数

get_scheduler 是 Hugging Face transformers.optimization 模块中的一个 学习率调度器(LR Scheduler)获取函数,用于 根据训练步数和策略调整学习率,适用于 Transformer 模型的优化


1. get_scheduler 的基本用法

1.1. 导入 get_scheduler

from transformers import get_scheduler

1.2. 主要参数

scheduler = get_scheduler(
    name="linear",            # 调度器类型
    optimizer=optimizer,      # 绑定优化器
    num_warmup_steps=0,       # 预热步数
    num_training_steps=1000   # 训练总步数
)
参数作用示例
name调度器类型"linear"
optimizer训练使用的优化器AdamW
num_warmup_steps预热步数0
num_training_steps训练总步数1000

2. get_scheduler 支持的调度器类型

调度器名称作用适用任务
"linear"线性衰减通用
"cosine"余弦退火长期训练
"cosine_with_restarts"余弦退火(带重启)阶段性学习率调整
"polynomial"多项式衰减自定义学习率曲线
"constant"固定学习率调试阶段
"constant_with_warmup"预热后固定学习率微调预训练模型

3. get_scheduler 详细示例

3.1. 线性衰减 (linear)

适用于 常规 NLP 训练,学习率随时间线性下降:

from transformers import get_scheduler
import torch

# 定义优化器
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)

# 训练步数
num_training_steps = 1000
num_warmup_steps = 100

# 获取调度器
scheduler = get_scheduler("linear", optimizer=optimizer, num_warmup_steps=num_warmup_steps, num_training_steps=num_training_steps)

# 模拟学习率变化
for step in range(10):
    optimizer.step()
    scheduler.step()
    print(f"Step {step+1}: Learning Rate = {scheduler.get_last_lr()[0]}")

3.2. 余弦衰减 (cosine)

适用于 长期训练任务,学习率随着训练进程 逐渐减小

scheduler = get_scheduler("cosine", optimizer, num_warmup_steps=100, num_training_steps=1000)

3.3. 余弦衰减(带重启) (cosine_with_restarts)

适用于 阶段性训练(如多轮训练),学习率 会周期性重置

scheduler = get_scheduler("cosine_with_restarts", optimizer, num_warmup_steps=100, num_training_steps=1000)

3.4. 预热后固定学习率 (constant_with_warmup)

适用于 微调预训练模型,前几步 缓慢增加学习率,然后保持恒定:

scheduler = get_scheduler("constant_with_warmup", optimizer, num_warmup_steps=100, num_training_steps=1000)

4. 在 Trainer 训练中使用 get_scheduler

在 Hugging Face Trainer 训练时,可以自定义 get_scheduler

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    learning_rate=5e-5,
    lr_scheduler_type="linear",  # 这里指定调度器
    warmup_steps=100,
    num_train_epochs=3,
)

5. 总结

get_schedulertransformers.optimization 中的 学习率调度器 获取函数,适用于 Transformer 模型训练

常见调度器:

  • "linear"线性衰减(推荐默认)
  • "cosine"余弦退火
  • "cosine_with_restarts"周期性重置学习率
  • "constant_with_warmup"预热后固定
  • "polynomial"自定义多项式衰减

如果你的训练 需要调整学习率随训练进程的变化方式,推荐使用 get_scheduler

The easiest method is to set these DeepSpeed config values to 'auto'. [rank1]: Traceback (most recent call last): [rank1]: File "/data1/users/heyu/find_size_and_weight/train711.py", line 625, in <module> [rank1]: train() [rank1]: File "/data1/users/heyu/find_size_and_weight/train711.py", line 617, in train [rank1]: train_result = trainer.train() [rank1]: File "/data1/users/heyu/uv_env/pyhy/lib/python3.10/site-packages/transformers/trainer.py", line 2240, in train [rank1]: return inner_training_loop( [rank1]: File "/data1/users/heyu/uv_env/pyhy/lib/python3.10/site-packages/transformers/trainer.py", line 2322, in _inner_training_loop [rank1]: self.optimizer, self.lr_scheduler = deepspeed_init(self, num_training_steps=max_steps) [rank1]: File "/data1/users/heyu/uv_env/pyhy/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 444, in deepspeed_init [rank1]: hf_deepspeed_config.trainer_config_finalize(args, model, num_training_steps) [rank1]: File "/data1/users/heyu/uv_env/pyhy/lib/python3.10/site-packages/transformers/integrations/deepspeed.py", line 268, in trainer_config_finalize [rank1]: raise ValueError( [rank1]: ValueError: Please correct the following DeepSpeed config values that mismatch TrainingArguments values: [rank1]: - ds scheduler.params.warmup_max_lr=0.0001 vs hf learning_rate=1e-05 [rank1]: The easiest method is to set these DeepSpeed config values to 'auto'. 2025-07-11 16:02:32,818 - ERROR - Training failed: Please correct the following DeepSpeed config values that mismatch TrainingArguments values: - ds scheduler.params.warmup_max_lr=0.0001 vs hf learning_rate=1e-05 The easiest method is to set these DeepSpeed config values to 'auto'.上述代码报错,修改
07-12
<think>嗯,用户遇到了ImportError,无法从transformers库导入get_linear_schedule_with_warmup。首先,我需要回忆一下这个函数通常在哪个模块里。根据之前的经验,学习率调度器get_linear_schedule_with_warmup可能属于optimization模块。用户提到他们复制了Hugging Face课程的代码,所以应该不是代码本身的问题,可能是版本不兼容。 查看用户提供的引用,引用[1]和[2]都提到版本问题,例如transformers版本4.18.0导致导入错误,而降到2.2.1或2.1.1解决了问题。但这里可能有矛盾,因为较新的版本通常应该保留这些功能。不过,也有可能Hugging Face在某个版本中更改了模块结构或函数名称。例如,在较新的版本中,可能将某些函数移动到不同的子模块中。 引用[3]提到使用get_linear_schedule_with_warmup需要从正确的模块导入,即从transformers.optimization中。所以用户可能没有正确引用模块。比如,在较新的版本中,这个函数可能被移动到了optimization模块,而不是直接放在transformers根模块下。 因此,可能的解决方法是检查当前安装的transformers版本,并查看该版本中get_linear_schedule_with_warmup的位置。如果用户使用的是较新版本,可能需要调整导入语句,例如: from transformers.optimization import get_linear_schedule_with_warmup 或者,如果该函数已经被弃用或移动,可能需要参考官方文档确认正确的导入路径。此外,用户可能需要安装特定版本的库,如引用[1]提到的降级到2.1.1,但这样做可能会引入其他兼容性问题,尤其是如果用户同时使用其他依赖于新版本transformers的库的话。 另一种可能性是用户的环境中有多个版本的transformers安装,导致路径混乱。这时候建议创建一个干净的虚拟环境,安装指定版本,并重新运行代码。 总结解决方案步骤:首先检查导入语句是否正确,是否使用了正确的模块路径;其次检查transformers版本,必要时降级到兼容版本;最后确认依赖库的版本是否匹配,并考虑环境问题。</think>### 解决 ImportError: 无法从 transformers 导入 get_linear_schedule_with_warmup 的方法 #### 1. **检查导入语句的正确性** - 在较新的 `transformers` 版本中,`get_linear_schedule_with_warmup` 可能被移动到 `optimization` 模块。修改导入语句为: ```python from transformers.optimization import get_linear_schedule_with_warmup ``` 若仍报错,需进一步验证版本兼容性[^3]。 #### 2. **调整 transformers 版本** - 若导入路径正确仍报错,可能是库版本不兼容。根据引用[1][^1]和[2][^2],尝试降级到旧版本: ```bash pip install transformers==4.1.1 # 或更低版本如 2.1.1 ``` - **注意**:降级可能导致其他功能异常(如依赖新版本特性的代码),需权衡选择。 #### 3. **验证依赖库版本** - 某些功能可能依赖 `torch` 或 `datasets` 的特定版本。确保以下库版本匹配: ```bash pip install torch==1.9.0 datasets==1.5.0 # 根据官方文档调整 ``` - 安装后重启 Python 内核或终端[^2]。 #### 4. **创建干净的虚拟环境** - 使用 `venv` 或 `conda` 创建新环境,避免多版本冲突: ```bash python -m venv myenv source myenv/bin/activate # Linux/Mac pip install transformers==4.1.1 torch==1.9.0 ``` #### 5. **替代方案:自定义实现调度器** - 若无法降级,可手动实现线性预热调度器(参考引用[3]): ```python from torch.optim.lr_scheduler import LambdaLR def get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps): def lr_lambda(current_step): if current_step < num_warmup_steps: return float(current_step) / float(max(1, num_warmup_steps)) return max(0.0, float(num_training_steps - current_step) / float(max(1, num_training_steps - num_warmup_steps))) return LambdaLR(optimizer, lr_lambda) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彬彬侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值