句子与文档表示学习:模型与应用
立即解锁
发布时间: 2025-09-04 00:51:29 阅读量: 7 订阅数: 14 AIGC 


自然语言处理的表示学习
### 句子与文档表示学习:模型与应用
在自然语言处理领域,句子和文档的有效表示对于众多下游任务至关重要。本文将介绍两种主要的文档建模框架,即基于内存的方法和分层方法,以及它们在实际应用中的典型场景。
#### 1. 基于键值的内存网络(KV - MemNN)
KV - MemNN是一种用于文档建模的有效方法。其输出向量同时利用了键和值的表示。在训练过程中,查询可以迭代更新,具体更新公式为:
\[
\mathbf{q}_{j + 1} = \mathbf{W}_q(\mathbf{q}_j + \mathbf{o})
\]
其中,\(\mathbf{W}_q\) 是变换矩阵。更新后的查询与内存的相关得分通过Softmax函数计算:
\[
p_i = \text{Softmax}(\mathbf{q}_{j + 1}^{\top} f_K(\mathbf{k}_i))
\]
查询的更新次数 \(H\) 是一个固定的超参数。最终模型的预测为:
\[
y = \arg\max_k \text{Softmax}(\mathbf{q}_{H + 1}^{\top} f_Y(\mathbf{y}_k))
\]
在训练阶段,所有的特征映射函数和可训练参数以端到端的方式进行优化。通过灵活设计 \(f_Q\)、\(f_K\) 和 \(f_V\),KV - MemNN 可以推广到各种不同形式知识的应用中。例如,对于以三元组形式存储的世界知识,可以将头实体和关系视为键,尾实体视为值;对于文本知识,可以直接将句子或单词编码为键和值。
设计基于内存的网络有三个关键点:
- 内存的表示学习
- 内存与查询之间的匹配机制
- 如何根据输入有效地进行内存检索
#### 2. 分层文档表示
自然语言中,高层单元通常由低层单元组成,文档由多个句子按特定逻辑顺序组成。因此,通过分层建模来获取句子和文档表示是一种直观的方法。
##### 2.1 分层文档编码器
分层文档编码器的基本思想是使用低层表示生成高层表示。具体步骤如下:
1. **获取单词表示**:使用自监督方法预训练得到的单词向量可直接作为基本单词表示,也可根据具体任务进行优化。
2. **获取句子表示**:以输入文档 \(d = \{s_1, \ldots, s_m\}\) 为例,其中 \(s_i = \{w_1, \ldots, w_n\}\)。将句子 \(s_j\) 输入 LSTM(也可使用 GRU 或 CNN 等其他神经网络),得到相应的隐藏状态:
\[
\mathbf{h}_i^w = \text{LSTM}(\mathbf{w}_i, \mathbf{h}_{i - 1}^w)
\]
最后一个时间步的隐藏状态包含整个句子的语义信息,可作为句子表示:
\[
\mathbf{s}_j = \mathbf{h}_n^w
\]
3. **获取文档表示**:将句子作为基本单元,在句子级别构建另一个 LSTM 来顺序处理句子表示。每个句子级步骤的隐藏状态由前一个隐藏状态和当前句子表示输入决定:
\[
\mathbf{h}_j^s = \text{LSTM}(\mathbf{s}_j, \mathbf{h}_{j - 1}^s)
\]
最后一个步骤的隐藏状态包含所有句子表示的信息,可视为文档表示:
\[
\mathbf{d} = \mathbf{h}_m^s
\]
当有监督信号时,可直接使用该文档表示进行文档级分类的神经网络训练;当没有监督信号时,可对文档表示进行自编码,然后按相反顺序解码。
以下是分层文档编码器的流程:
```mermaid
graph TD;
A[输入文档] --> B[获取单词表示];
B --> C[获取句子表示];
C --> D[获取文档表示];
D --> E{是否有监督信号};
E -- 是 --> F[文档级分类训练];
E -- 否 --> G[自编码与解码];
```
##### 2.2 分层注意力网络
分层注意力网络(HAN)利用注意力机制捕捉文档的分层相关性。其具体步骤如下:
1. **单词级建模**:使用双向 GRU 对单词进行建模,计算单词嵌入 \(\mathbf{w}\) 的双向隐藏状态:
\[
\overrightarrow{\mathbf{h}}_w = \overrightarrow{\text{GRU}}(\mathbf{w})
\]
\[
\overleftarrow{\mathbf{h}}_w = \overleftarrow{\text{GRU}}(\mathbf{w})
\]
将两个方向的隐藏状态直接连接,得到最终的单词表示:
\[
\mathbf{
0
0
复制全文
相关推荐









