[nlp] grad norm先降后升再降

最新推荐文章于 2025-06-11 17:42:24 发布

心心喵

最新推荐文章于 2025-06-11 17:42:24 发布

阅读量4.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： nlp 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Trance95/article/details/134438022

nlp 专栏收录该内容

116 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

梯度范数在深度学习训练中先降后升再降是正常现象，尤其在学习率过大或网络复杂时。这可能表明模型在寻找最优解时跳过局部最优。若范数异常，应考虑调整超参数或优化器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

grad norm先降后升再降正常嘛

在深度学习中，梯度的范数通常被用来衡量模型参数的更新程度，也就是模型的学习进度。在训练初期，由于模型参数的初始值比较随机，梯度的范数可能会比较大，这是正常现象。随着模型的训练，梯度的范数通常会逐渐减小，直到收敛到一个较小的值。

在某些情况下，梯度的范数可能会先下降，然后上升再下降，这也是正常现象。这种现象通常出现在 模型的学习率过大或者网络结构过于复杂 的情况下。在这种情况下，模型可能会在学习过程中 跳过某些局部最优解，导致梯度的范数先下降后上升再下降。

如果梯度的范数出现了不正常的变化，例如一直上升或一直下降，可能意味着模型存在问题，需要进行调整。例如，可以尝试调整模型的超参数，如学习率、正则化系数等，或者修改模型的结构。此外，还可以尝试使用不同的优化器或损失函数来训练模型，以寻找更好的训练效果。

博客等级

码龄8年

781
原创

766
点赞

1185
收藏

6485
粉丝

关注

私信

热门文章

分类专栏

大A量化专栏付费 9篇
论文笔记付费 162篇
机器学习付费 33篇
算法导论付费 170篇
nlp 付费 116篇
redis
paddle
预训练语言模型 2篇
机器视觉
OT 3篇
强化学习 1篇
java 7篇
linux 152篇
RS 8篇
c 5篇
c++ 13篇
python 29篇
tensorflow2.0 7篇
深度学习 14篇
笔记
pytorch 7篇
LRFR 1篇
论文 2篇
cv 13篇

展开全部收起

上一篇：: [nlp] 损失缩放（Loss Scaling）loss sacle

下一篇：: [nlp] ValueError: offset must be non-negative and no greater than buffer length (33590083584)

最新评论

[论文笔记] KTO：作为前景理论优化的模型对准
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] 超详细解读DeepSeek v3全论文技术报告
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] Deepseek技术报告解读: MLA&MTP
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑
心心喵: 就是有缓存过tokenizer 的cache的情况下，优先读取path中已经缓存的结果
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑
chuangzhidian: 没看到

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心心喵 喵喵(*^▽^*）

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。