1. 学习率Warm up 在训练复杂的模型时,使用学习率热身可以帮助训练稳定。在学习率热身中,我们逐渐增加学习率,从一个非常低的值inital_lr逐渐到用户定义的最大学习率peak_lr。 n_epochs = 15 initial_lr = 0.0001 peak_lr = 0.01 total_steps = len(train_loader) * n_epochs warmup_steps = int(0.2 * total_steps) # 20% warmup <