关于词向量

最新推荐文章于 2025-06-27 10:25:00 发布

原创

最新推荐文章于 2025-06-27 10:25:00 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #算法 #自然语言

本文探讨了词向量的表示方法，从One-hot Represention到Distributed Representation，包括NNLM、RNNLM、COBW和Skip-gram模型。这些模型通过不同的方式解决了词汇鸿沟和维数灾难问题，降低了训练复杂度，并介绍了word2vec模型的创新之处，如上下文窗口、线性关系替代非线性隐层以及负采样技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考论文：Efficient Estimation of Word Representations in
Vector Space

One-hot Represention

在深度学习没有如此如火如荼之前，语言模型的建立依靠的一般还是SVM，CRF等算法，为了将自然语言符号、数值化，One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。
每个词都是茫茫词海中的一个1。
假设语料库中有V个词，那么语料库中的任一词都可以表示为一个长度为V的向量，另外，每个词都有一个unique的id，one-hot将向量中词id相应位置置为1，其他位置为0来表示这个词。因而，可以想象如果将V个词的one-hot represention形成V*V的矩阵，那么这个矩阵是多么稀疏。
优点：简单
缺点：1>容易形成词汇鸿沟，即不能刻词与词之间的相似性。2>当V足够大时，容易形成维数灾难

Distributed Representation

NNLM(Feedforward Neural Net Language Model )

**
针对One-hot Representation存在的问题，Distributed Representation最早有Hinton在1986年在《Learning distributed representations of concepts》提出，用一个具有固定长度的向量来表示一个词。Bengio在2003提出了NNLM语言模型训练词向量。NNLM的前向神经网络涉及到线性投射层(Projection Layer)和非线性隐层(Hidden Layer)。
NNLM语言模型的网络结构包括输入层、投射层、隐层和输出层。下图给出了NNLM的网络结构。