AI学习挑战99天:AI的炼金术 - Day1

本文内容是自己的学习笔记,写笔记的目的是为了使用费曼学习法,不承诺内容的100%准确。

AI 是如何回答问题的

当我们对AI提问后,AI进行回答,其实并不是他在回答问题,而是在对问题进行延续,好让这个文本更合理,其核心机制是采用文字接龙(专业称为自回归生成)的方式。 将整个问题作为一个输入,然后预测接下来该接一个什么字更合适,要接的这个字他会先生成一个概率表出来供选择。

选择策略会引入随机性而非仅选最高概率。这种设计避免答案千篇一律,同时通过温度调节(Temperature)和Top-p采样策略平衡多样性与合理性。 这种随机性既可能带来惊艳回答,也导致幻觉现象——当首字预测错误时,模型会基于错误上下文持续生成错误内容(自回归生成无法回溯修正)。

随机的合理性

由于模型并不会按照概率表中概率大小来进行选择,怎么保证选择的靠谱,这个就是通过训练得到的一个巨大无比的函数来保证的,如GPT-3有1750亿参数。

这些参数如果按照数学概念表示,我理解就是对某一个规律绘制了一个函数。这个函数能够对输入产生合理的输出。如:

那这个函数是怎么来的?这些参数是如何确定的?这就涉及到大模型的训练。

注:这里还有一个技术是Transformer的注意力、自注意力两个机制,保证了模型能够注意整个句子,以及理解不同语境下的词语含义。

从混沌到有序

要得到一个可靠的函数,需要通过大量的训练。训练说起来也很简单,先准备一个数据集,其数据包括:输入xxx,期望得到yyy。然后就会把准备好的这些数据喂给神经网络,神经网络会不断地根据输入,产生自己的输出,然后与期望结果对比,发现差距后,自动优化参数、权重,直到达到预期。

那该有多少个参数来决定这个函数,训练中模型又是如何优化参数、权重的? 以GPT-3为例,他的参数是1750亿个,这是在设计模型阶段就确定好的,训练过程中并不会对他进行增减。一旦确定后一半会采用一些方法进行初始化这些参数,常用的有:均匀分布(参数均匀分散在特定范围)、正态分布(参数集中在均值附近),以及Xavier初始化(根据网络层维度自适应调整初始值范围)。 那参数又是怎么得到一步步优化的呢?以一条训练数据举例,假设输入xxx,期望得到yyy,但是首次模型得到的却是yyf。这里就会将yyy与yyf进行比较,发现不符合预期,这个过程中有一个术语叫损失函数,他发现这个差距后,会给出优化的方向。 然后模型就会从输出层反向逐层计算各参数梯度,找出到底是哪一层出现了大的偏差,确认后就会采用梯度下降的方法进行更新。 最后结合是不是参数基本不变、损失函数多轮没有显著下降、或者达成训练轮次目标等来判定模型训练结束。

这里的训练只是指预训练,在之后一半还会进行SFT、RLHF等。SFT与预训练流程基本一致,只不过提供的数据集有差异。而RLHF采用强化学习框架,将人类偏好转化为奖励模型(Reward Model),通过PPO算法优化策略,这个机制有效,Andrej Karpathy说:“人类更擅长评估答案质量而非生成答案,这使RLHF成为有效的对齐方法”。

理解文字、图片

上面过程看起来很简单,但是机器本身是不能直接理解文字、图片的。为了它能够理解,需要将这些信息转化为一个多维数组(向量、矩阵都是它)。可以简单的理解为对字典的每个词进行一个数字编码(专业的叫嵌入(Embedding)技术)。当然在真实的计算机中他是一个多维的。图像也是类似的方式,只不过他会更复杂(高度×宽度×RGB通道)、维度更多。

举一个文字转向量的例子,假设有一本字典,本字典不给词语写解释,而是给每个词发一串神秘数字密码。比如:

  • "猫" → [0.3, -1.2, 0.8...]

  • "狗" → [0.4, -1.1, 0.7...]

  • "开心" → [0.9, 0.5, -0.3...] 

这串数字可不是乱编的!通过文本嵌入技术(如Word2Vec、BERT),AI会让:

  • 近义词的数字更接近:"快乐"和"开心"就像相邻的邻居

  • 反义词的数字方向相反:"大"和"小"像磁铁的两极

通过"国王 - 男 + 女"的向量运算,就能得到与"女王"相近的编码。这套机制让AI不仅能识别字面意思,还能捕捉词语间的隐含关系,比如"包袱",你把包袱带好;这个脱口秀的包袱真多。

背后的科学谜题

1. 不可证明性 千亿参数构成的函数就像黑暗森林,即使知道每个参数值,也难以解释为什么调整参数A会让模型学会法语翻译。这好比我们知道大脑有1000亿神经元,却说不清具体哪几个神经元存储着童年记忆。

2. 梯度下降的哲学 优化过程如同蒙眼下山:

  • 每次随机试探周边地形(计算梯度)

  • 朝着最陡峭的下坡方向迈步(参数更新)

  • 虽可能困在局部洼地(次优解),但总能找到宜居山坡(可用模型)

3. 新范式革命 传统编程是"设计规则→得到结果",AI却是"喂数据→涌现能力"。就像19世纪化学家发现元素周期表前,炼金术士早已在实践中掌握物质转化规律(科学的尽头真的是玄学吗?)。

正如爱因斯坦所说:"想象力比知识更重要。"AI的魔法启示我们:当确定性算法与不确定性创造相遇,当1750亿参数在概率海洋中翩翩起舞,人类或许正在打开一扇通向"机械灵感"的新次元门。


程序改变的不止是世界

也改变了你我的头发

公众号ID

dayuTalk

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值