组合语义的表示学习:从二元到多元组合
立即解锁
发布时间: 2025-09-04 00:51:28 阅读量: 5 订阅数: 14 AIGC 


自然语言处理的表示学习
### 组合语义的表示学习:从二元到多元组合
在自然语言处理(NLP)领域,组合语义学旨在通过基本单元的组合构建更高级语言单元的向量表示。本文将深入探讨二元组合、多元组合等相关内容,介绍不同的建模方法及其原理。
#### 1. 二元组合
组合语义学的目标是通过二元组合,利用基本单元构建更高级语言单元的向量表示。在二元组合中,每次操作涉及两个对象。以“machine learning”这个短语为例,我们有表示“machine”和“learning”的向量 $\mathbf{u}$ 和 $\mathbf{v}$,目标是根据这些词的表示构建短语的表示向量 $\mathbf{p}$。
在简单的语义空间中,假设 $\mathbf{u} = [0, 3, 1, 5, 2]$,$\mathbf{v} = [1, 4, 2, 2, 0]$,若直接使用加法运算符表示“machine learning”,则 $\mathbf{p} = \mathbf{u} + \mathbf{v} = [1, 7, 3, 7, 2]$。关键在于设计一个作为二元运算符的基本组合函数,基于此函数可递归应用于词序列以推导更长文本的组合。
建模二元组合函数是一个研究充分但仍具挑战性的问题,主要有两种视角:加法模型和乘法模型。
##### 1.1 加法模型
加法模型以加法为基本操作。为简化讨论,将公式简化为 $\mathbf{p} = f(\mathbf{u}, \mathbf{v})$,忽略关系和背景项。
- **简单求和**:最简单的方法是直接使用求和表示联合表示,即 $\mathbf{p} = \mathbf{u} + \mathbf{v}$。这种方法假设不同成分的组合是对称函数,不考虑成分的顺序,存在缺乏建模词序能力和背景句法或知识信息等缺点,但提供了相对较强的基线。
- **加权求和**:为克服词序问题,可应用加权和,即 $\mathbf{p} = \alpha\mathbf{u} + \beta\mathbf{v}$,其中 $\alpha$ 和 $\beta$ 是两个向量的不同权重。当 $\alpha \neq \beta$ 时,$(u, v)$ 和 $(v, u)$ 有不同的表示,符合真实语言现象。例如,设 $\alpha = 0.3$,$\beta = 0.7$,则 $0.3\times\mathbf{w}(machine) = [0, 0.9, 0.3, 1.5, 0.6]$,$0.7\times\mathbf{w}(learning) = [0.7, 2.8, 1.4, 1.4, 0]$,“machine learning”的表示为 $0.3\times\mathbf{w}(machine) + 0.7\times\mathbf{w}(learning) = [0.7, 3.7, 1.7, 2.9, 0.6]$。
- **结合邻域语义**:为将先验知识和句法信息纳入加法模型,可将 $K$ 个最近邻域语义结合到组合中,得到 $\mathbf{p} = \mathbf{u} + \sum_{i = 1}^{L} \mathbf{m}_i + \mathbf{v} + \sum_{i = 1}^{K} \mathbf{n}_i$,其中 $\mathbf{m}_i$ 是 $\mathbf{u}$ 的语义邻居,$\mathbf{n}_i$ 是 $\mathbf{v}$ 的语义邻居。例如,在“machine”和“learning”的组合中,选择“computer”和“optimizing”作为邻居,其向量分别为 $\mathbf{w}(computer) = [1, 0, 0, 0, 1]$ 和 $\mathbf{w}(optimizing) = [1, 5, 3, 2, 1]$,则“machine learning”的表示变为 $\mathbf{w}(machine) + \mathbf{w}(computer) + \mathbf{w}(learning) + \mathbf{w}(optimizing) = [3, 12, 6, 9, 4]$。
- **相似度测量**:在语义空间中,余弦函数是测量表示之间相似度的自然方法。对于 $\mathbf{p} = \mathbf{u} + \mathbf{v}$ 和任意词 $\mathbf{w}$,余弦相似度 $s(\mathbf{p}, \mathbf{w})$ 可推导为:
\[
s(\mathbf{p}, \mathbf{w}) = \frac{\mathbf{p} \cdot \mathbf{w}}{\|\mathbf{p}\| \cdot \|\mathbf{w}\|} = \frac{(\mathbf{u} + \mathbf{v}) \cdot \mathbf{w}}{\|\mathbf{u} + \mathbf{v}\| \cdot \|\mathbf{w}\|} = \frac{\|\mathbf{u}\|}{\|\ma
0
0
复制全文
相关推荐









