深入探索大语言模型（上）

### 深入探索大语言模型（上） #### 1. 大语言模型简介近年来，学术界、工业界甚至普通公众对Transformer的兴趣急剧上升。如今，最先进的基于Transformer的架构被称为大语言模型（LLMs）。其最引人注目的特点是文本生成能力，最著名的例子就是ChatGPT。LLMs的核心是Transformer，自2017年引入以来，Transformer架构变化不大，主要的进步体现在更大的模型和更大的训练集上。例如，原始的GPT-1模型有1.17亿个参数，而GPT-3有1.75万亿个参数，增加了一千倍。根据模型大小，可将Transformer模型分为两类： - **预训练语言模型（PLMs）**：参数较少的Transformer，如BERT和GPT属于此类。从BERT开始，这些模型引入了预训练/微调的两步范式。注意力机制和无监督预训练（掩码语言模型或下一个词预测）相结合，创造了有效的通用语义特征，可用于许多下游任务。因此，PLMs比其他自然语言处理算法（如循环神经网络）表现更好。其高度可并行化的架构激发了大量后续工作，产生了改进的模型，并最终催生了下一类模型。 - **大语言模型（LLMs）**：具有数十亿参数的Transformer模型。与PLMs在以下方面有质的区别： - **涌现能力**：能够解决一系列复杂任务。 - **提示接口**：可以用自然语言与人类交互，而不是使用特殊的API。 - **研究与工程融合**：LLMs的规模要求研究人员具备大规模数据处理和并行训练的强大工程技能。目前，LLMs几乎都是仅解码器模型，因为当前LLMs的主要应用围绕文本生成（如聊天机器人），这是以牺牲仅编码器和编码器 - 解码器架构为代价的。以聊天机器人为例，它从用户生成的消息（提示）开始，解码器模型根据提示一次生成一个标记的响应，响应会添加回输入序列，用特殊标记分隔提示和响应。用户可以继续提供新的提示，LLM会根据扩展后的序列生成新的响应。LLM没有记忆现有聊天会话的机制，只能将其作为输入序列的一部分。当达到上下文窗口的最大长度时，会开始截断序列的初始部分。 #### 2. LLM架构 ##### 2.1 LLM注意力变体之前讨论的注意力机制是全局注意力。双向全局自注意力机制的连接矩阵中，每行和每列代表完整的输入标记序列。当前输入标记（查询）可以关注所有其他标记，“全局”意味着每个标记都可以关注所有标记。但存在一些注意力变体，并非所有标记都参与，这些标记用透明单元格表示。双向自注意力中，查询可以关注前后元素；单向情况下，查询只关注当前输入标记下方的元素。 ##### 2.2 注意力复杂度注意力机制（特别是全局注意力）存在一些缺点，其中之一是其时间和空间复杂度随上下文窗口的增加而二次增加。这是因为该机制是通过矩阵和矩阵乘法实现的。矩阵乘法的时间复杂度：两个$n×n$矩阵相乘的时间复杂度是$O(n^3)$，因为经典实现使用三个嵌套循环。例如，上下文窗口大小$n = 4$时，$Q$和$V$矩阵有16个单元格；$n = 8$时，有64个单元格。因此，两倍大的上下文窗口需要四倍的内存。将上下文窗口从$n = 4$增加到$n = 8$，操作数量将从$4^3 = 64$增加到$8^3 = 512$。 Transformer块包含前馈网络（FFN）、多头自注意力和四个线性投影（全连接层）。各组件的时间复杂度如下： |组件|时间复杂度| |----|----| |三个输入线性投影|$O(n×d^2)$| |h个自注意力头|$O(n^2×d)$| |第四个输出线性投影|$O(n×d^2)$| |FFN模块|$O(n×d^2)$| 整个块的组合复杂度是$O(n×d^2 + n^2×d)$，取决于上下文窗口长度$n$和嵌入大小$d$的比例。在实际中，$d >> n$是最常见的情况，但无论如何，注意力机制至少具有二次的空间和时间复杂度。

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

深入探索大语言模型（上）

相关推荐

专栏目录

深入探索大语言模型（上）

相关推荐

人工智能前沿专题-大语言模型基础导论-上部.pdf

大语言模型技术应用实践纪实

大语言模型资源存储仓库汇总

深入探索C++对象模型

深入探索c++对象模型

Jupyter_欢迎来到 LLMtravel 仓库探索大语言模型LLM的奥秘 致力于深入理解探讨以及实现与大模型相关的.zip

深入探索Claude：新一代语言模型的使用与应用.txt

深入探索c++对象模型 设计模式c++ pdf

深入探索10大chatGPT模型入口在自然语言处理中的应用

探索大规模语言模型在上下文学习中的决策边界机制

潜江积极提升护路联防信息化水平.doc

专栏目录

最新推荐

微纳流体对流与传热应用研究

凸轮与从动件机构的分析与应用

可再生能源技术中的Simulink建模与应用

磁电六铁氧体薄膜的ATLAD沉积及其特性

自激感应发电机稳态分析与电压控制

MATLAB数值技术：拟合、微分与积分

克里金插值与图像处理：原理、方法及应用

MATLAB目标对象管理与配置详解

电力系统经济调度与动态经济调度研究

TypeScript高级特性与Cypress测试实践

Jupyter_欢迎来到 LLMtravel 仓库探索大语言模型LLM的奥秘致力于深入理解探讨以及实现与大模型相关的.zip

深入探索c++对象模型设计模式c++ pdf