关于词向量

本文探讨了词向量的表示方法,从One-hot Represention到Distributed Representation,包括NNLM、RNNLM、COBW和Skip-gram模型。这些模型通过不同的方式解决了词汇鸿沟和维数灾难问题,降低了训练复杂度,并介绍了word2vec模型的创新之处,如上下文窗口、线性关系替代非线性隐层以及负采样技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考论文:Efficient Estimation of Word Representations in
Vector Space

One-hot Represention

在深度学习没有如此如火如荼之前,语言模型的建立依靠的一般还是SVM,CRF等算法,为了将自然语言符号、数值化,One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。
每个词都是茫茫词海中的一个1。
假设语料库中有V个词,那么语料库中的任一词都可以表示为一个长度为V的向量,另外,每个词都有一个unique的id,one-hot将向量中词id相应位置置为1,其他位置为0来表示这个词。因而,可以想象如果将V个词的one-hot represention形成V*V的矩阵,那么这个矩阵是多么稀疏。
优点:简单
缺点:1>容易形成词汇鸿沟,即不能刻词与词之间的相似性。2>当V足够大时,容易形成维数灾难

Distributed Representation

**

NNLM(Feedforward Neural Net Language Model )

**
针对One-hot Representation存在的问题,Distributed Representation最早有Hinton在1986年在《Learning distributed representations of concepts》提出,用一个具有固定长度的向量来表示一个词。Bengio在2003提出了NNLM语言模型训练词向量。NNLM的前向神经网络涉及到线性投射层(Projection Layer)和非线性隐层(Hidden Layer)。
NNLM语言模型的网络结构包括输入层、投射层、隐层和输出层。下图给出了NNLM的网络结构。

以下是一份使用tensorflow2.0训练词向量的示例代码: ``` import tensorflow as tf from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences # 输入数据 sentences = [ 'I love coding', 'Coding is fun', 'Coding is my passion', 'I enjoy coding', 'Coding is awesome' ] # 设置参数 vocab_size = 1000 # 词汇量大小 embedding_dim = 16 # 词向量维度 max_length = 10 # 句子最大长度 trunc_type='post' # 超过最大长度后截断位置 padding_type='post' # 不足最大长度时填充位置 oov_tok = "<OOV>" # 未知单词填充符 # 创建分词器 tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_tok) tokenizer.fit_on_texts(sentences) word_index = tokenizer.word_index # 创建序列 sequences = tokenizer.texts_to_sequences(sentences) padded_sequences = pad_sequences(sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type) # 构建模型 model = tf.keras.Sequential([ tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_length), tf.keras.layers.Flatten(), tf.keras.layers.Dense(6, activation='softmax') ]) # 编译模型 model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy']) # 训练模型 model.fit(padded_sequences, epochs=50) # 获取词向量矩阵 embedding_layer = model.layers[0] weights = embedding_layer.get_weights()[0] # 输出词向量 for word, i in word_index.items(): if i < vocab_size: print(word, weights[i]) ``` 该代码将输入数据进行分词并转化为序列,然后使用tensorflow2.0构建了一个简单的神经网络模型,通过训练该模型得到词向量矩阵。最后输出了每个单词对应的词向量
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值