本文内容是自己的学习笔记,写笔记的目的是为了使用费曼学习法,不承诺内容的100%准确。
AI 是如何回答问题的
当我们对AI提问后,AI进行回答,其实并不是他在回答问题,而是在对问题进行延续,好让这个文本更合理,其核心机制是采用文字接龙(专业称为自回归生成)的方式。 将整个问题作为一个输入,然后预测接下来该接一个什么字更合适,要接的这个字他会先生成一个概率表出来供选择。
选择策略会引入随机性而非仅选最高概率。这种设计避免答案千篇一律,同时通过温度调节(Temperature)和Top-p采样策略平衡多样性与合理性。 这种随机性既可能带来惊艳回答,也导致幻觉现象——当首字预测错误时,模型会基于错误上下文持续生成错误内容(自回归生成无法回溯修正)。
随机的合理性
由于模型并不会按照概率表中概率大小来进行选择,怎么保证选择的靠谱,这个就是通过训练得到的一个巨大无比的函数来保证的,如GPT-3有1750亿参数。
这些参数如果按照数学概念表示,我理解就是对某一个规律绘制了一个函数。这个函数能够对输入产生合理的输出。如:
那这个函数是怎么来的?这些参数是如何确定的?这就涉及到大模型的训练。
注:这里还有一个技术是Transformer的注意力、自注意力两个机制,保证了模型能够注意整个句子,以及理解不同语境下的词语含义。
从混沌到有序
要得到一个可靠的函数,需要通过大量的训练。训练说起来也很简单,先准备一个数据集,其数据包括:输入xxx,期望得到yyy。然后就会把准备好的这些数据喂给神经网络,神经网络会不断地根据输入,产生自己的输出,然后与期望结果对比,发现差距后,自动优化参数、权重,直到达到预期。
那该有多少个参数来决定这个函数,训练中模型又是如何优化参数、权重的? 以GPT-3为例,他的参数是1750亿个,这是在设计模型阶段就确定好的,训练过程中并不会对他进行增减。一旦确定后一半会采用一些方法进行初始化这些参数,常用的有:均匀分布(参数均匀分散在特定范围)、正态分布(参数集中在均值附近),以及Xavier初始化(根据网络层维度自适应调整初始值范围)。 那参数又是怎么得到一步步优化的呢?以一条训练数据举例,假设输入xxx,期望得到yyy,但是首次模型得到的却是yyf。这里就会将yyy与yyf进行比较,发现不符合预期,这个过程中有一个术语叫损失函数,他发现这个差距后,会给出优化的方向。 然后模型就会从输出层反向逐层计算各参数梯度,找出到底是哪一层出现了大的偏差,确认后就会采用梯度下降的方法进行更新。 最后结合是不是参数基本不变、损失函数多轮没有显著下降、或者达成训练轮次目标等来判定模型训练结束。
这里的训练只是指预训练,在之后一半还会进行SFT、RLHF等。SFT与预训练流程基本一致,只不过提供的数据集有差异。而RLHF采用强化学习框架,将人类偏好转化为奖励模型(Reward Model),通过PPO算法优化策略,这个机制有效,Andrej Karpathy说:“人类更擅长评估答案质量而非生成答案,这使RLHF成为有效的对齐方法”。
理解文字、图片
上面过程看起来很简单,但是机器本身是不能直接理解文字、图片的。为了它能够理解,需要将这些信息转化为一个多维数组(向量、矩阵都是它)。可以简单的理解为对字典的每个词进行一个数字编码(专业的叫嵌入(Embedding)技术)。当然在真实的计算机中他是一个多维的。图像也是类似的方式,只不过他会更复杂(高度×宽度×RGB通道)、维度更多。
举一个文字转向量的例子,假设有一本字典,本字典不给词语写解释,而是给每个词发一串神秘数字密码。比如:
"猫" → [0.3, -1.2, 0.8...]
"狗" → [0.4, -1.1, 0.7...]
"开心" → [0.9, 0.5, -0.3...]
这串数字可不是乱编的!通过文本嵌入技术(如Word2Vec、BERT),AI会让:
近义词的数字更接近:"快乐"和"开心"就像相邻的邻居
反义词的数字方向相反:"大"和"小"像磁铁的两极
通过"国王 - 男 + 女"的向量运算,就能得到与"女王"相近的编码。这套机制让AI不仅能识别字面意思,还能捕捉词语间的隐含关系,比如"包袱",你把包袱带好;这个脱口秀的包袱真多。
背后的科学谜题
1. 不可证明性 千亿参数构成的函数就像黑暗森林,即使知道每个参数值,也难以解释为什么调整参数A会让模型学会法语翻译。这好比我们知道大脑有1000亿神经元,却说不清具体哪几个神经元存储着童年记忆。
2. 梯度下降的哲学 优化过程如同蒙眼下山:
每次随机试探周边地形(计算梯度)
朝着最陡峭的下坡方向迈步(参数更新)
虽可能困在局部洼地(次优解),但总能找到宜居山坡(可用模型)
3. 新范式革命 传统编程是"设计规则→得到结果",AI却是"喂数据→涌现能力"。就像19世纪化学家发现元素周期表前,炼金术士早已在实践中掌握物质转化规律(科学的尽头真的是玄学吗?)。
正如爱因斯坦所说:"想象力比知识更重要。"AI的魔法启示我们:当确定性算法与不确定性创造相遇,当1750亿参数在概率海洋中翩翩起舞,人类或许正在打开一扇通向"机械灵感"的新次元门。
程序改变的不止是世界
也改变了你我的头发
公众号ID
dayuTalk