首先想象一下,你教一个婴儿认识世界:
-
你首先会给他看一张识字卡片,比如上面画着一个苹果,下面写着“苹果”。
-
一开始,这张卡片对婴儿来说只是一张花花绿绿的纸。
-
但你反复告诉他:“这是苹果,甜的,能吃的水果。”
-
慢慢地,婴儿的大脑就在这张卡片(Token) 和 “苹果”这个概念(含义) 之间建立了强大的联系。
对于大模型来说,每一个Token就是这样一张“识字卡片”。而模型的“理解”,就是为这些卡片赋予含义的过程。
模型理解Token的三步曲
第1步:为Token赋予数字身份(编号)—— “这是几号卡片?”
模型的世界里没有文字,只有数字。它有一个巨大的字典(词汇表)。
-
比如,
“猫
”
这个Token可能对应数字12345
。 -
“人工“
可能对应3344
,“智能”
对应5566
。
当输入"人工智能
"
时,模型会先把它转换成一串数字:[3344, 5566]
。
此时,模型还不知道这些数字的含义,它只知道收到了“3344”和“5566”这两张卡片的编号。
第2步:将数字转换为向量(Word Embedding)—— “为卡片涂上颜色和属性”
这是最关键、最神奇的一步。模型通过海量数据的学习,为每一个编号(每一个Token)都准备了一个独特的向量(Vector)。
你可以把向量想象成:
-
一个超长的属性列表或特征坐标。
-
比如有500个维度的评分,每个维度代表一种特性。
例如,“猫”
这个Token的向量可能是:
[动物: 0.99, 宠物: 0.95, 毛茸茸: 0.97, 大小: 0.3, 会飞: -0.99, 王室: 0.01, ...]
而“国王”
的向量可能是:
[人类: 0.99, 男性: 0.98, 权力: 0.99, 王室: 0.99, 戴王冠: 0.95, 动物: -0.99, ...]
关键点:
-
语义相近的Token,其向量在数字空间里的“距离”也更近。
“猫”
和“狗”
的向量会比“猫”
和“石头”
的向量更相似。 -
模型还学会了语法和关系。著名的例子是:
“国王”
的向量 -“男人”
的向量 +“女人”
的向量 ≈“女王”
的向量。
到了这一步,模型才算真正开始“理解”了。它不再是处理冰冷的编号,而是在处理带有丰富语义信息的概念点。
第3步:通过注意力机制理解上下文(Transformer架构)—— “结合所有卡片的关系看图说话”
现在,模型手里有一堆带着丰富属性的卡片(Token向量),但它还需要理解这些卡片在一起的组合关系。
这就要靠注意力机制(Attention Mechanism)。这个机制让模型能够“环顾四周”,动态地关注到句子中任何位置的其他Token。
举个例子:输入句子是” 猫追老鼠,因为它很敏捷。”
模型需要理解“它”指代什么。
-
在处理“它”这个Token时,注意力机制会高度聚焦到“猫”和“老鼠”这两个Token上。
-
通过计算,“猫”的向量中的
[敏捷: 0.88]
属性与“它”的关联性最强,而“老鼠”的相关属性较弱。 -
于是模型判断,“它”指的是“猫”。
这个过程就像是在看一张完整的图画(整个句子),而不是只盯着一个个孤立的乐高积木。模型通过注意力机制,理解了Token与Token之间的语义关系和语法结构。
模型理解Token的过程是:
编号 → 赋予语义属性(向量)→ 结合上下文分析关系(注意力机制)
这对我们有什么实际影响?
-
提示工程(Prompt Engineering):为什么我们写提示词有时需要换一种说法?因为不同的Token拆分和组合方式,会激活模型内部不同的“概念向量”和“关系路径”。一个好的提示词,相当于给模型提供了属性最清晰、关系最明确的“一套卡片”。
-
模型幻觉(Hallucination):如果模型遇到的Token组合非常奇怪或它在训练中没见过,它基于概率和向量关系“编造”出一个答案,这就可能产生幻觉。因为它是在基于属性“联想”,而非真正“知道”。
-
偏见(Bias):如果训练数据中“医生”总是和男性相关的Token同时出现,那么“医生”这个Token的向量里
[男性: 0.9]
这个属性的值就会很高,导致模型可能产生性别偏见。因为它的“理解”来源于统计数据。
总而言之,模型对Token的理解,是一个从统计到语义,从孤立到关联的复杂计算过程。它没有人类的真实体验,但它通过数十亿的参数和海量的数据,建立了一套极其强大和复杂的“概念地图”,从而让我们感觉它真的“理解”了我们的世界。
对我们普通人来说,可以这样看待:
大模型并不拥有人类意义上的、带有主观体验的理解力。但它拥有一种强大的、基于统计和概率的“功能性理解”能力。
这种能力足以让它:
-
进行流畅的对话
-
总结复杂的信息
-
进行逻辑推理(基于模式的推理)
-
创作内容
意识到这一点,对我们正确使用AI至关重要:
-
不要神化AI:知其强大,也知其局限。它的“理解”是机械的、概率的,因此会犯一些人类不会犯的“幻觉”错误。
-
学会如何提问:既然它依赖上下文Token,那么你的提示词(Prompt)就是为它设定“情境剧本”。剧本越好,它的“演出”就越精彩。
-
保持批判性思维:永远要对AI的输出进行审视和核实,不要因为它看起来“说得通”就全盘接受。
欢迎关注公众号,后续带来更多知识!