书面文本含义的捕捉与处理技术

### 文本意义捕捉与序列建模技术解析 #### 1. 词嵌入向量的特性词嵌入是自然语言处理中的重要技术，它能将单词表示为向量，从而在向量空间中捕获单词的语义信息。下面介绍几种常见的词嵌入方法及其特性。 ##### 1.1 Word2vec方法 Word2vec方法在处理文本时表现出色。以德国维基百科为例，其包含约220万篇文章、9.71亿个单词，训练该模型需6.2GB内存。形成了约200万个单词的词汇表，词嵌入长度设为100，训练耗时约6小时。该方法不使用默认值，适用于任意语言和字母。训练后，词汇表中的每个单词都有对应的嵌入向量。这些向量的分量本身无特定含义，需与其他单词的嵌入向量对比来解释。例如，在计算单词嵌入向量的最近邻时，使用余弦距离作为度量。余弦距离计算两个向量间的夹角，先将向量归一化到长度为1，再计算归一化向量的标量积。通过图6.9可以看到，“trumps”的嵌入向量与“trump”的嵌入向量距离最小，说明它们出现的语境非常相似。同时，“obama”的嵌入向量与“trump”的嵌入向量距离也较小，而“mccain”虽不是总统，其嵌入向量也与“trump”较近，这表明单词的相似度并非总是与常规术语一致。 | 单词 | 最近邻单词 | | ---- | ---- | | trumps | trump | | obama | trump | | mccain | trump | 使用t - SNE方法可将高维数据可视化到二维空间。图6.10展示了“merkel”的20个最近邻嵌入向量在二维空间的投影。“macron”和“condoleezza”距离较远，因为它们与“merkel”在不同句子中被提及。需注意，100维空间中的距离关系更加详细。图6.11展示了“mouse”的50个最近邻嵌入向量的二维投影。左上角多为卡通领域的术语，右下角是小动物的名称，中间还有“input device”和“joystick”等术语。这表明通过嵌入向量可以学习文本中单词的含义，且邻居单词的出现取决于处理的文档集合。 ##### 1.2 嵌入向量差异表达关系嵌入向量的一个惊人特性是可以从内容角度解释嵌入向量间的距离向量。例如，从“merkel”的嵌入向量中减去“germany”的嵌入向量，得到的差异向量代表了“merkel”与“germany”的关系。将该差异向量加到“usa”的嵌入向量上，得到新的嵌入向量，与之最接近的单词是“barack”。这可以解释为国家与其政府首脑的关系，这种概念间的关系也称为类比。图6.13展示了更多用嵌入向量计算的类比。标题行显示了被减去和添加的嵌入向量，列中按降序列出了与结果嵌入向量距离最近的单词。这些类比常适用于国家 - 首都、国家 - 货币、国家 - 政府首脑等关系。同时，最后一列揭示了语言使用中可能存在的偏见，如“woman”对应“small”，“man”对应“large”。为测试这种类比的有效性，设置了18000个这样的关系，Word2vec方法能恢复其中69%的类比。嵌入向量可用于表示单词的含义，因此也被用于网络搜索引擎，以检索语义相似的单词，显著提高搜索结果的质量。 ##### 1.3 FastText方法 Word2vec方法的一个问题是每个单词有独立的嵌入向量，会忽略非常罕见的单词。FastText方法则不仅考虑单词，还考虑单词的部分，即n - 元组（n - grams）。通常使用3 - 元组到6 - 元组的所有重叠序列。例如，“anarchy”由整个单词和字母序列表示。对于每个部分，使用单独的嵌入向量。模型的输入是相邻单词及其字母序列嵌入向量的总和，通过逻辑回归模型预测中心单词及其字母序列。在

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

书面文本含义的捕捉与处理技术

相关推荐

专栏目录

书面文本含义的捕捉与处理技术

相关推荐

mmpose 關鍵點資料集

网络销售年总结范文.doc

基于web的在线考试系统毕业设计(论文).doc

钢筋抽样软件GGJ009自学课程-砌体剪力墙结构部分.pptx

网络服务质量控制的研究.doc

基层供销社日用消费品现代经营网络建设可行性建议书.doc

XX网络管理员优秀简历范文.doc

基于神经网络的混合动力汽车能量管理策略

烟草系统信息网络安全管理办法.docx

基于六网融合技术的山西旅游电子商务平台可行性论证报告.doc

linux发布程序常用脚本

JSPatchbridgeObjective-CandJavascriptusingtheObjective-Cruntime.Youcan.zip

专栏目录

最新推荐

强化学习与合成数据生成：UnityML-Agents深度解析

利用Kaen实现PyTorch分布式训练及超参数优化

模型生产化：从本地部署到云端容器化

排行榜接入全攻略：第三方SDK集成实战详解

利用PyTorch进行快速原型开发

使用PyTorch构建电影推荐系统

电力电子中的Simulink应用：锁相环、静止无功补偿器与变流器建模

多视图检测与多模态数据融合实验研究

二维和三维偏微分方程耦合求解及生命科学中常微分方程问题的解决

模糊推理系统对象介绍