AI学习挑战99天：AI的炼金术

本文内容是自己的学习笔记，写笔记的目的是为了使用费曼学习法，不承诺内容的100%准确。

AI 是如何回答问题的

当我们对AI提问后，AI进行回答，其实并不是他在回答问题，而是在对问题进行延续，好让这个文本更合理，其核心机制是采用文字接龙（专业称为自回归生成）的方式。将整个问题作为一个输入，然后预测接下来该接一个什么字更合适，要接的这个字他会先生成一个概率表出来供选择。

选择策略会引入随机性而非仅选最高概率。这种设计避免答案千篇一律，同时通过温度调节（Temperature）和Top-p采样策略平衡多样性与合理性。这种随机性既可能带来惊艳回答，也导致幻觉现象——当首字预测错误时，模型会基于错误上下文持续生成错误内容（自回归生成无法回溯修正）。

随机的合理性

由于模型并不会按照概率表中概率大小来进行选择，怎么保证选择的靠谱，这个就是通过训练得到的一个巨大无比的函数来保证的，如GPT-3有1750亿参数。

这些参数如果按照数学概念表示，我理解就是对某一个规律绘制了一个函数。这个函数能够对输入产生合理的输出。如：

那这个函数是怎么来的？这些参数是如何确定的？这就涉及到大模型的训练。

注：这里还有一个技术是Transformer的注意力、自注意力两个机制，保证了模型能够注意整个句子，以及理解不同语境下的词语含义。

从混沌到有序

要得到一个可靠的函数，需要通过大量的训练。训练说起来也很简单，先准备一个数据集，其数据包括：输入xxx，期望得到yyy。然后就会把准备好的这些数据喂给神经网络，神经网络会不断地根据输入，产生自己的输出，然后与期望结果对比，发现差距后，自动优化参数、权重，直到达到预期。

那该有多少个参数来决定这个函数，训练中模型又是如何优化参数、权重的？以GPT-3为例，他的参数是1750亿个，这是在设计模型阶段就确定好的，训练过程中并不会对他进行增减。一旦确定后一半会采用一些方法进行初始化这些参数，常用的有：均匀分布（参数均匀分散在特定范围）、正态分布（参数集中在均值附近），以及Xavier初始化（根据网络层维度自适应调整初始值范围）。那参数又是怎么得到一步步优化的呢？以一条训练数据举例，假设输入xxx，期望得到yyy，但是首次模型得到的却是yyf。这里就会将yyy与yyf进行比较，发现不符合预期，这个过程中有一个术语叫损失函数，他发现这个差距后，会给出优化的方向。然后模型就会从输出层反向逐层计算各参数梯度，找出到底是哪一层出现了大的偏差，确认后就会采用梯度下降的方法进行更新。最后结合是不是参数基本不变、损失函数多轮没有显著下降、或者达成训练轮次目标等来判定模型训练结束。

这里的训练只是指预训练，在之后一半还会进行SFT、RLHF等。SFT与预训练流程基本一致，只不过提供的数据集有差异。而RLHF采用强化学习框架，将人类偏好转化为奖励模型（Reward Model），通过PPO算法优化策略，这个机制有效，Andrej Karpathy说：“人类更擅长评估答案质量而非生成答案，这使RLHF成为有效的对齐方法”。

理解文字、图片

上面过程看起来很简单，但是机器本身是不能直接理解文字、图片的。为了它能够理解，需要将这些信息转化为一个多维数组（向量、矩阵都是它）。可以简单的理解为对字典的每个词进行一个数字编码（专业的叫嵌入（Embedding）技术）。当然在真实的计算机中他是一个多维的。图像也是类似的方式，只不过他会更复杂（高度×宽度×RGB通道）、维度更多。

举一个文字转向量的例子，假设有一本字典，本字典不给词语写解释，而是给每个词发一串神秘数字密码。比如：