[LLM]：大模型（Transformer）参数量分析

最新推荐文章于 2025-07-22 11:36:16 发布

Way_X

最新推荐文章于 2025-07-22 11:36:16 发布

阅读量2k

点赞数 15

CC 4.0 BY-SA版权

分类专栏： # 从0开始AIGC 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41897558/article/details/141752708

- 1. 前言
- 2. 模型参数量

文章内容主要摘自：https://zhuanlan.zhihu.com/p/624740065

1. 前言

最近，OpenAI推出的ChatGPT展现出了卓越的性能，引发了大语言模型(Large Language Model, LLM)的研究热潮。大规模语言模型的“大”体现在两个方面：模型参数规模大，训练数据规模大。以GPT3为例，GPT3的参数量为1750亿，训练数据量达到了570GB。进而，训练大规模语言模型面临两个主要挑战：显存效率和计算效率。

现在业界的大语言模型都是基于transformer模型的，模型结构主要有三大类：

encoder-decoder（代表模型是T5）、
encoder-only（代表模型是BERT，也叫Masked-Language Model，MLM）以及
decoder-only，具体的，decoder-only结构又可以分为Causal LM（因果语言模型-自回归的预测，代表模型是GPT系列）和Prefix LM（代表模型是GLM，UniLM）。归因于GPT系列取得的巨大成功，大多数的主流大语言模型都采用Causal LM结构。

因此，针对decoder-only框架，为了更好地理解训练训练大语言模型的显存效率和计算效率，本文分析采用decoder-only框架来分析transformer模型的模型参数量、计算量、中间激活值、KV cache。

Transformer 原始架构和decoder-only架构的GPT对比：

为了方便分析，先定义好一些数学符号。记transformer模型的层数为 $l$ ，隐藏层维度为 $h$ ，注意力头数为 $a$ 。词表大小为 $V$ ，训练数据的批次大小为 $b$ ，序列长度为 $s$ 。

2. 模型参数量

decoder-only架构的大模型有两部分组成，输入&输出的词嵌入层（大部分模型词嵌入层共享参数）以及堆叠 $l$ 层的transformer块。

tran

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。