大模型演进

Whitney_mao

已于 2024-04-02 09:21:24 修改

阅读量1.1k

点赞数 30

CC 4.0 BY-SA版权

分类专栏：大模型系列文章标签：自然语言处理神经网络 transformer

于 2024-04-02 02:52:06 首次发布

本文链接：https://blog.csdn.net/Whitney66/article/details/137061388

大模型系列专栏收录该内容

19 篇文章

订阅专栏

本文探讨了统计语言模型，特别是N-gram模型（包括一元、二元和三元语法）的原理，以及如何通过马尔科夫假设简化计算。随后介绍了神经网络语言模型（NNLM），尤其是其与One-hot和DistributedRepresentation的关系，以及RNN和Transformer在处理长距离依赖和计算效率方面的改进。文章还对比了GPT和BERT的预训练模型，强调了BERT在全方位上下文理解和预训练+微调策略上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

统计语言模型

统计语言模型指计算一个句子出现概率的概率模型，它通常被描述为字符串s的概率分布P（s）
p(s)=p(w1, w2,w3, …,w1)
利用bayes公式将其转变为：
p(s)=p(w1)p(w2|w1)p(w3|w1,w2)…p(w1|w1,w2,…,w(n-1))
其中，w为语言模型的参数，p(s)为条件概率。
通过统计语料库得到所有条件概率后，对于任何一个给定的句子S，都可以通过将对应的条件概率相乘的方法得到句子的概率。

但是统计语言模型存在两个问题：
1）参数空间太大；
2）模型过于稀疏。

N-gram模型与马尔科夫假设

马尔科夫假设：一个词出现的概率只和它前面出现的一个或有限的几个词有关。
在这里插入图片描述
以上述条件概率表达的称之为 N-gram 语法模型，N取值通常不会太大（计算量）。
[n=1] 表示词与词之间无关。一元语法模型（Uni-gram）：
p(w1, w2，…,wl)=p(w1)p(w2)…p(wl)
[n=2] 二元语法（Bi-gram），[n=3] 三元语法（Tri-gram）：
在这里插入图片描述
为了更好地理解N-gram语法模型，可以看以下示例。当n=1时，一个句子中的每个单词互不相关，都是独立的个体，那么在计算时正确语句的概率时，需要计算单词个数的阶乘；当n=2时，每两个连续的单词为一组，计算形成一句正确语句的概率时则可以采用条件概率公式；同理，当n=3时，连续三个单词为一组，再利用条件概率公式计算正确语句的概率。
在这里插入图片描述
根据最大似然估计，这些条件概率的计算就是在语料中统计这些词组合所出现的概率，即：

基于n-gram模型的365,893,263个连续单词中，计算不同概率的数值为以下结果。从中可得统计语言模型的计算量有多大以及计算成本有多高。
在这里插入图片描述

神经网络语言模型(NNLM)

机器学习的分类

机器学习可以主要分为以下三类：
在这里插入图片描述

NNLM论文（Neural Network language Model）

NNLM目的就是针对概率分布统计转化成目标函数优化，具体怎么实现目标函数的优化？就是NNLM三个本质问题：

从涉及到哪些函数中，找到目标函数；
明确模型中存在的参数；
采用什么方法优化参数。

NNLM的模型：
在这里插入图片描述
从统计语言模型到NNLM函数的转化：

实现过程：确定目标函数L，以及正则化项R（θ），再以梯度下降方式优化模型参数： θ = (C, ω)

在这里插入图片描述
实现的两个飞跃：

将概率模型统计变成数据驱动的模型优化；
将简单的基于单词统计变成基于词向量进行学习。

NNLM完整实现

NNLM模型

1 目标函数表达式：
在这里插入图片描述
其中，x输入可以用词向量表示为：

2.参数为：

h为隐藏层，n为词向量的数量，d为隐藏层的偏置，b为隐藏层的偏置，W为词向量到输出层的权重，U为隐藏层到输出层的权重。
3.采用梯度下降进行优化

One-hot & Distributed Representation

由于不同维度限制，One-hot无法通过词向量实现语义的计算，而Distributed Representation可以解决两个问题：1.降维；2.语义计算。
One-hot结构：
One-hot

Distributed Representation的核心思想
通过训练将某种语言中的每一个词映射到一个低维空间里固定长度的向量，这个向量又可以看作是这个低维向量空间中的一个点，不同的词所在的点之间的距离就可以表示成是它们之间的相似度。

Distributed Representation结构及核心思想示意图：

RNN 网络

大模型关键点包括语法&语义的理解：大多模型可以解决语法问题，但是难以解决语义理解。

RNN网络结构
NNLM 普遍采用 RNN / LSTM 作为神经网络：
在这里插入图片描述
还需要解决两个问题：
1.长距离依赖（梯度消失）；
2.计算效率（RNN难以并行）

基于Transformer的大语言模型

注意力模型

为什么需要使用Attention？
主要是为了解决RNNs存在的问题：

解决传统编码器-解码器模型的挑战，避免信息损失和无法建模输入输出对齐的问题；
由于长距离依赖，需要允许解码器访问整个编码的输入序列，通过注意力权重选择性地关注相关信息；
自动学习注意力权重，捕捉编码器和解码器之间的相关性；
构建上下文向量，使解码器能够全面访问输入序列并重点关注相关部分；
提高模型性能，改善输出质量，并提供更好的解释性。
一般性的Encoder-decoder网络结构

基于注意力模型的Encoder-decoder网络架构b：

训练发现s和h的关联性：

注意力模型
解决了输入和输出关系的直连；同时通过隐藏层的训练实现注意力权重，softmax进行归一化。

注意力机制的特点和优势
1.注意力机制有助于克服循环神经网络（RNNs）的一些挑战，例如输入序列长度增加时性能下降和顺序处理输入导致的计算效率低下；
2.在自然语言处理（NLP）、计算机视觉（Computer Vision）、跨模态任务和推荐系统等多个领域中，注意力机制已成为多项任务中的最先进模型，取得了显著的性能提升；
3.注意力机制不仅可以提高主要任务的性能，还具有其他优势。它们被广泛用于提高神经网络的可解释性，帮助解释模型的决策过程，使得原本被认为是黑盒模型的神经网络变得更易解释。这对于人们对机器学习模型的公平性、可追溯性和透明度的关注具有重要意义。

Transformer

语言模型技术发展各阶段对比

编码器-解码器网络结构（序列对齐的RNNs）————>自注意力的Transformer网络结构

Transformer网络架构图

表达式：
自注意力机制
在这里插入图片描述
单个注意力机制到多头注意力机制：

多头注意力机制为Transformer核心的一个部分：

Feed Forward表达式为：

Transformer转化为Encoder-decoder网络结构：

由简单转为较为复杂的Transformer结构

预训练Transformer模型：GPT-1&BERT

从神经网络开始演进，其发展大模型的过程为;
在这里插入图片描述
Generative Pretrained Transformer (GPT-1)的应用及产生：

预训练 Transformer 的三种网络架构：

预训练发展：

训练过程及发现：

BERT：Pre-training + Fine-Tuning Paradigm

在这里插入图片描述
BERT 独特价值：
1.全方位上下文理解： 与以前的模型（例如GPT）相比，BERT能够双向理解上下文，即同时考虑一个词的左边和右边的上下文。这种全方位的上下文理解使得BERT能够更好地理解语言，特别是在理解词义、消歧等复杂任务上有明显优势；
2.预训练+微调（Pre-training + Fine-tuning）的策略： BERT模型先在大规模无标签文本数据上进行预训练，学习语言的一般性模式，然后在具体任务的标签数据上进行微调。这种策略让BERT能够在少量标签数据上取得很好的效果，大大提高了在各种NLP任务上的表现；
3.跨任务泛化能力： BERT通过微调可以应用到多种NLP任务中，包括但不限于文本分类、命名实体识别、问答系统、情感分析等。它的出现极大地简化了复杂的NLP任务，使得只需一种模型就能处理多种任务；
4.多语言支持： BERT提供了多语言版本（Multilingual BERT），可以支持多种语言，包括但不限于英语、中文、德语、法语等，使得NLP任务能够覆盖更广的语言和区域；
5.性能优异： 自BERT模型提出以来，它在多项NLP基准测试中取得了优异的成绩，甚至超过了人类的表现。它的出现标志着NLP领域进入了预训练模型的新时代；
6.开源和可接入性： BERT模型和预训练权重由Google公开发布，让更多的研究者和开发者可以利用BERT模型进行相关研究和应用开发，推动了整个NLP领域的发展。