大模型是如何理解和使用Token的？-CSDN博客

首先想象一下，你教一个婴儿认识世界：

对于大模型来说，每一个Token就是这样一张“识字卡片”。而模型的“理解”，就是为这些卡片赋予含义的过程。

模型的世界里没有文字，只有数字。它有一个巨大的字典（词汇表）。

当输入"人工智能"时，模型会先把它转换成一串数字：[3344, 5566]。
此时，模型还不知道这些数字的含义，它只知道收到了“3344”和“5566”这两张卡片的编号。

这是最关键、最神奇的一步。模型通过海量数据的学习，为每一个编号（每一个Token）都准备了一个独特的向量（Vector）。

你可以把向量想象成：

例如，“猫”这个Token的向量可能是：
[动物: 0.99, 宠物: 0.95, 毛茸茸: 0.97, 大小: 0.3, 会飞: -0.99, 王室: 0.01, ...]

而“国王”的向量可能是：
[人类: 0.99, 男性: 0.98, 权力: 0.99, 王室: 0.99, 戴王冠: 0.95, 动物: -0.99, ...]

关键点：

到了这一步，模型才算真正开始“理解”了。它不再是处理冰冷的编号，而是在处理带有丰富语义信息的概念点。

现在，模型手里有一堆带着丰富属性的卡片（Token向量），但它还需要理解这些卡片在一起的组合关系。

这就要靠注意力机制（Attention Mechanism）。这个机制让模型能够“环顾四周”，动态地关注到句子中任何位置的其他Token。

举个例子：输入句子是” 猫追老鼠，因为它很敏捷。”

模型需要理解“它”指代什么。

这个过程就像是在看一张完整的图画（整个句子），而不是只盯着一个个孤立的乐高积木。模型通过注意力机制，理解了Token与Token之间的语义关系和语法结构。

模型理解Token的过程是：
编号 → 赋予语义属性（向量）→ 结合上下文分析关系（注意力机制）

这对我们有什么实际影响？

提示工程（Prompt Engineering）：为什么我们写提示词有时需要换一种说法？因为不同的Token拆分和组合方式，会激活模型内部不同的“概念向量”和“关系路径”。一个好的提示词，相当于给模型提供了属性最清晰、关系最明确的“一套卡片”。
模型幻觉（Hallucination）：如果模型遇到的Token组合非常奇怪或它在训练中没见过，它基于概率和向量关系“编造”出一个答案，这就可能产生幻觉。因为它是在基于属性“联想”，而非真正“知道”。
偏见（Bias）：如果训练数据中“医生”总是和男性相关的Token同时出现，那么“医生”这个Token的向量里[男性: 0.9]这个属性的值就会很高，导致模型可能产生性别偏见。因为它的“理解”来源于统计数据。

总而言之，模型对Token的理解，是一个从统计到语义，从孤立到关联的复杂计算过程。它没有人类的真实体验，但它通过数十亿的参数和海量的数据，建立了一套极其强大和复杂的“概念地图”，从而让我们感觉它真的“理解”了我们的世界。

对我们普通人来说，可以这样看待：

大模型并不拥有人类意义上的、带有主观体验的理解力。但它拥有一种强大的、基于统计和概率的“功能性理解”能力。

这种能力足以让它：

意识到这一点，对我们正确使用AI至关重要：

欢迎关注公众号，后续带来更多知识！