书面文本含义的捕捉与处理技术
立即解锁
发布时间: 2025-08-30 00:43:55 阅读量: 12 订阅数: 46 AIGC 

### 文本意义捕捉与序列建模技术解析
#### 1. 词嵌入向量的特性
词嵌入是自然语言处理中的重要技术,它能将单词表示为向量,从而在向量空间中捕获单词的语义信息。下面介绍几种常见的词嵌入方法及其特性。
##### 1.1 Word2vec方法
Word2vec方法在处理文本时表现出色。以德国维基百科为例,其包含约220万篇文章、9.71亿个单词,训练该模型需6.2GB内存。形成了约200万个单词的词汇表,词嵌入长度设为100,训练耗时约6小时。该方法不使用默认值,适用于任意语言和字母。
训练后,词汇表中的每个单词都有对应的嵌入向量。这些向量的分量本身无特定含义,需与其他单词的嵌入向量对比来解释。
例如,在计算单词嵌入向量的最近邻时,使用余弦距离作为度量。余弦距离计算两个向量间的夹角,先将向量归一化到长度为1,再计算归一化向量的标量积。通过图6.9可以看到,“trumps”的嵌入向量与“trump”的嵌入向量距离最小,说明它们出现的语境非常相似。同时,“obama”的嵌入向量与“trump”的嵌入向量距离也较小,而“mccain”虽不是总统,其嵌入向量也与“trump”较近,这表明单词的相似度并非总是与常规术语一致。
| 单词 | 最近邻单词 |
| ---- | ---- |
| trumps | trump |
| obama | trump |
| mccain | trump |
使用t - SNE方法可将高维数据可视化到二维空间。图6.10展示了“merkel”的20个最近邻嵌入向量在二维空间的投影。“macron”和“condoleezza”距离较远,因为它们与“merkel”在不同句子中被提及。需注意,100维空间中的距离关系更加详细。
图6.11展示了“mouse”的50个最近邻嵌入向量的二维投影。左上角多为卡通领域的术语,右下角是小动物的名称,中间还有“input device”和“joystick”等术语。这表明通过嵌入向量可以学习文本中单词的含义,且邻居单词的出现取决于处理的文档集合。
##### 1.2 嵌入向量差异表达关系
嵌入向量的一个惊人特性是可以从内容角度解释嵌入向量间的距离向量。例如,从“merkel”的嵌入向量中减去“germany”的嵌入向量,得到的差异向量代表了“merkel”与“germany”的关系。将该差异向量加到“usa”的嵌入向量上,得到新的嵌入向量,与之最接近的单词是“barack”。这可以解释为国家与其政府首脑的关系,这种概念间的关系也称为类比。
图6.13展示了更多用嵌入向量计算的类比。标题行显示了被减去和添加的嵌入向量,列中按降序列出了与结果嵌入向量距离最近的单词。这些类比常适用于国家 - 首都、国家 - 货币、国家 - 政府首脑等关系。同时,最后一列揭示了语言使用中可能存在的偏见,如“woman”对应“small”,“man”对应“large”。
为测试这种类比的有效性,设置了18000个这样的关系,Word2vec方法能恢复其中69%的类比。
嵌入向量可用于表示单词的含义,因此也被用于网络搜索引擎,以检索语义相似的单词,显著提高搜索结果的质量。
##### 1.3 FastText方法
Word2vec方法的一个问题是每个单词有独立的嵌入向量,会忽略非常罕见的单词。FastText方法则不仅考虑单词,还考虑单词的部分,即n - 元组(n - grams)。通常使用3 - 元组到6 - 元组的所有重叠序列。
例如,“anarchy”由整个单词和字母序列表示。对于每个部分,使用单独的嵌入向量。模型的输入是相邻单词及其字母序列嵌入向量的总和,通过逻辑回归模型预测中心单词及其字母序列。
在
0
0
复制全文
相关推荐
