深入浅出Skip-Gram模型：原理、实现与应用指南

原创于 2025-08-17 11:01:32 发布 · 1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#CBOW #pytorch #word2vec

人工智能专栏收录该内容

106 篇文章

订阅专栏

本文系统性地介绍了自然语言处理领域的经典模型——Skip-Gram。从解决传统词表示方法的缺陷出发，详细阐述了Skip-Gram模型的工作原理、核心优势及实际应用价值。通过清晰的步骤分解，展示了如何从零开始构建和训练一个简化版Skip-Gram模型，并提供了完整的Python实现代码。文章不仅解释了模型的数学基础和训练过程，还给出了生产环境中的实用建议和扩展应用方向。无论是NLP初学者还是希望深入理解词嵌入技术的开发者，都能从中获得有价值的实践指导。

一、背景介绍

1. 自然语言处理中的词表示问题

在自然语言处理(NLP)任务中，计算机需要理解文本数据。但计算机只能处理数字，不能直接理解文字。因此，我们需要将词语转换为计算机能理解的数字表示——这就是**词嵌入(Word Embedding)**技术要解决的问题。

传统方法如**独热编码(One-Hot Encoding)**存在严重缺陷：

每个词都是一个很长的稀疏向量(维度=词汇表大小)
无法表达词与词之间的语义关系
维度灾难问题(词汇量大时向量维度极高)

2. 词嵌入的革命性突破

2013年，Google团队提出了Word2Vec模型，包含两种训练模式：

CBOW(Continuous Bag-of-Words)：根据上下文预测当前词
Skip-Gram：根据当前词预测上下文(本文重点)

Skip-Gram模型通过神经网络学习词语的分布式表示，使得语义相近的词在向量空间中距离较近，完美解决了传统方法的缺陷。
在这里插入图片描述

二、Skip-Gram模型作用

1. 核心功能

Skip-Gram模型的核心任务是：给定一个中心词，预测其周围的上下文词

例如对于句子：“The quick brown fox jumps over the lazy dog”

当中心词是"fox"时，上下文词可能是：“The”, “quick”, “brown”, “jumps”, "over"等(具体范围由窗口大小决定)

2. 主要优势

能够捕捉词语间的语义关系
生成的词向量维度远小于词汇表大小(通常50-300维)
相似词在向量空间中距离相近
可以计算词语间的相似度(如余弦相似度)

3. 典型应用场景

文本分类
情感分析
机器翻译
问答系统
推荐系统

三、实现步骤详解

1. 基本原理

Skip-Gram模型采用反向设计思路：不是用上下文预测中心词(如CBOW)，而是用中心词预测上下文。这种设计在处理罕见词时效果更好。

数学表示：

给定一个词序列w₁,w₂,…,w_T，对于每个中心词w_t，预测其窗口范围内的上下文词w*{t-c},…,w*{t-1},w*{t+1},…,w*{t+c}(c为窗口半径)

2. 模型架构

Skip-Gram模型包含以下核心组件：

输入层：中心词的one-hot编码向量
隐藏层：无激活函数的线性变换(只是矩阵乘法)
输出层：通过softmax预测上下文词的概率分布

3. 训练过程详解

步骤1：数据准备

将文本分割为词语序列(分词)
建立词汇表，为每个词分配唯一索引
确定窗口大小(如c=2，表示中心词左右各取2个词作为上下文)

步骤2：构建训练样本

对于每个中心词，生成多个训练样本：

中心词 + 每个上下文词组成一对输入-输出样本

例如句子：“I love natural language processing” (窗口大小=1)

中心词"love" → 上下文词"I"和"natural"
中心词"natural" → 上下文词"love"和"language"

步骤3：模型训练

将中心词的one-hot向量(维度=V，V为词汇表大小)乘以输入权重矩阵W₁(V×N)
得到隐藏层表示(维度=N，N为嵌入维度，通常50-300)
将隐藏层表示乘以输出权重矩阵W₂(N×V)
通过softmax得到每个词作为上下文词的概率
使用交叉熵损失函数计算误差
通过反向传播更新权重矩阵

步骤4：获取词向量

训练完成后：

输入权重矩阵W₁的每一行就是对应词语的词向量
或者有时也使用(W₁+W₂)的平均/拼接作为最终词向量

4. 关键技术点

负采样(Negative Sampling)：解决softmax计算量大的问题
- 不是对整个词汇表计算概率，而是随机采样一些"负样本"(非上下文词)
- 只更新正样本和负样本的权重
层次softmax(Hierarchical Softmax)：另一种加速方法
- 使用二叉树结构代替扁平的softmax
- 将复杂度从O(V)降到O(logV)
窗口大小选择：
- 小窗口(2-5)：学习到语法关系(如冠词-名词)
- 大窗口(5+)：学习到语义关系(如同义词)

四、Python实现示例

下面我们用PyTorch实现一个简化版的Skip-Gram模型：

1. 环境准备

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from collections import Counter
import random

2. 数据预处理

# 示例文本
text = "the quick brown fox jumps over the lazy dog . the fox is quick and the dog is lazy ."

# 分词和构建词汇表
words = text.lower().split()
vocab = set(words)
vocab_size = len(vocab)

# 词到索引的映射
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for idx, word in enumerate(vocab)}

print(f"词汇表大小: {vocab_size}")
print(f"示例映射: 'the' -> {word2idx['the']}, 'fox' -> {word2idx['fox']}")

# 超参数设置
embedding_dim = 10  # 词向量维度
window_size = 2     # 上下文窗口大小

3. 生成训练数据

# 准备训练数据 (中心词, 上下文词) 对
training_data = []

for i in range(window_size, len(words) - window_size):
    center_word = words[i]
    context_words = words[i-window_size:i] + words[i+1:i+window_size+1]
    
    for context_word in context_words:
        training_data.append((center_word, context_word))

print(f"生成的训练样本数: {len(training_data)}")
print("前5个样本:", training_data[:5])

4. 定义Skip-Gram模型

class SkipGram(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(SkipGram, self).__init__()
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)  # 输入词嵌入
        self.linear = nn.Linear(embedding_dim, vocab_size)        # 输出层
        
    def forward(self, inputs):
        embeds = self.embeddings(inputs)  # (batch_size, embedding_dim)
        out = self.linear(embeds)         # (batch_size, vocab_size)
        log_probs = torch.log_softmax(out, dim=1)
        return log_probs

# 初始化模型
model = SkipGram(vocab_size, embedding_dim)
print(model)

5. 训练模型

# 损失函数和优化器
criterion = nn.NLLLoss()  # 负对数似然损失(与log_softmax配合使用)
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 训练循环
epochs = 100
for epoch in range(epochs):
    total_loss = 0
    
    for center_word, context_word in training_data:
        # 准备输入和目标
        center_idx = torch.tensor([word2idx[center_word]], dtype=torch.long)
        context_idx = torch.tensor([word2idx[context_word]], dtype=torch.long)
        
        # 前向传播
        model.zero_grad()
        log_probs = model(center_idx)
        
        # 计算损失
        loss = criterion(log_probs, context_idx)
        total_loss += loss.item()
        
        # 反向传播和优化
        loss.backward()
        optimizer.step()
    
    if (epoch + 1) % 20 == 0:
        print(f'Epoch {epoch+1}, Loss: {total_loss:.4f}')

6. 查看训练结果

# 获取词向量
embeddings = model.embeddings.weight.data.numpy()

# 打印几个词的向量
print("\n词向量示例:")
for word in ['the', 'fox', 'dog']:
    idx = word2idx[word]
    print(f"{word}: {embeddings[idx][:5]}...")  # 只打印前5维

# 计算词相似度(余弦相似度)
def cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

fox_vec = embeddings[word2idx['fox']]
quick_vec = embeddings[word2idx['quick']]
brown_vec = embeddings[word2idx['brown']]

print("\n相似度计算:")
print(f"'fox' 和 'quick': {cosine_similarity(fox_vec, quick_vec):.3f}")
print(f"'fox' 和 'brown': {cosine_similarity(fox_vec, brown_vec):.3f}")
print(f"'quick' 和 'brown': {cosine_similarity(quick_vec, brown_vec):.3f}")

五、实际应用建议

1. 参数调优指南

词向量维度：通常50-300维，维度越高捕获信息越多但计算成本越大
窗口大小：语法关系用小窗口(2-5)，语义关系用大窗口(5-10)
负采样数：通常5-20个负样本
学习率：常用0.01-0.05，可随训练衰减

2. 生产环境建议

对于实际项目，建议直接使用成熟的库：

# 使用Gensim库训练Word2Vec(Skip-Gram)
from gensim.models import Word2Vec

sentences = [["the", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]]
model = Word2Vec(sentences, vector_size=10, window=2, min_count=1, sg=1)  # sg=1表示Skip-Gram
print(model.wv['fox'])  # 获取fox的词向量