论文基本信息
题目
Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment
作者
Linyao Yang, Hongyang Chen∗ (通讯作者), Xiao Wang, Jing Yang, Fei-Yue Wang, Han Liu
机构
- Zhejiang Lab, China
- Anhui University, China
- Institute of Automation, Chinese Academy of Sciences, China
- Dalian University of Technology, China
发表地点与年份
Journal of the ACM (J. ACM), Volume 37, Issue 4, Article 111, August 2023
关键词术语
- Entity Alignment (实体对齐): 识别不同知识图谱(KG)中等价实体的任务
- Knowledge Fusion (知识融合): 整合多源知识的技术
- Relation-Aware Graph ATtention network (RAGAT): 考虑关系信息的图注意力网络
- Virtual Equivalent Entity (虚拟等价实体): 由LLM生成的跨语言等价实体表示
摘要(详细复述)
背景
实体对齐是构建统一知识图谱的关键前提任务,现有方法主要依赖知识嵌入模型捕获结构/关系/属性相似性,但异构信息融合仍具挑战性;大型语言模型(LLM)隐含的语义知识尚未被有效利用。
方案概述
提出LLMEA框架:
- 使用RAGAT学习KG结构嵌入
- 基于嵌入相似性和编辑距离筛选候选实体
- 通过多轮多选问题利用LLM推理能力预测对齐
主要结果
- 在DBPZH-EN、DBPJA-EN、DBPFR-EN三个数据集上超越所有基线
- Hits@1平均提升12.4%(相比最佳基线DAT)
- 消融实验验证各组件贡献:结构候选实体贡献度最高(移除后Hits@1↓18.47%)
结论与意义
首次整合KG结构化知识与LLM语义知识,为实体对齐提供新范式;证明LLM的推理能力可显著提升对齐精度。
研究背景与动机
学术场景与痛点
场景:多源KG融合需解决实体对齐问题,例如整合英文DBpedia与中文百科。
核心痛点:
- 异构信息融合困难(结构/属性/语义模态差异)
- LLM隐含的跨语言实体知识未被充分利用
主流路线与局限
方法类别 | 代表工作 | 优点 | 不足 |
---|---|---|---|
结构嵌入方法 | RREA, GCN-Align | 捕获拓扑相似性 | 忽略语义信息 |
多模态融合方法 | MCLEA, DAT | 融合多源特征 | 模态对齐困难 |
约束优化方法 | IPEA, CEAFF | 强制一对一约束 | 计算复杂度高(NP-hard) |
问题定义(形式化)
输入/输出
- 输入:两个KG G1=(E1,R1,T1)G_1 = (E_1, R_1, T_1)G1=(E1,R1,T1) 和 G2=(E2,R2,T2)G_2 = (E_2, R_2, T_2)G2=(E2,R2,T2)
- 输出:等价实体对集合 P={(ei,ej)∣ei∈E1,ej∈E2,ei≡ej}P = \{(e_i, e_j) | e_i \in E_1, e_j \in E_2, e_i \equiv e_j\}P={(ei,ej)∣ei∈E1,ej∈E2,ei≡ej}
符号定义
- EEE:实体集合,RRR:关系集合,TTT:三元组集合
- hi∈Rdh_i \in \mathbb{R}^dhi∈Rd:实体 eie_iei 的嵌入向量
- NiN_iNi:实体 eie_iei 的邻居集合
目标函数
最小化对齐损失:
L=∑(ei,ej)∈P[δ+dist(hi,hj)−dist(h~i,h~j)]+ L = \sum_{(e_i,e_j) \in P} [\delta + \text{dist}(h_i, h_j) - \text{dist}(\tilde{h}_i, \tilde{h}_j)]_+ L=(ei,ej)∈P∑[δ+dist(hi,hj)−dist(h~i,h~j)]+
其中 δ\deltaδ 为间隔超参数,dist\text{dist}dist 为L2距离,[⋅]+=max(⋅,0)[\cdot]_+ = \max(\cdot, 0)[⋅]+=max(⋅,0)
评测指标
- Hits@k:正确对齐实体出现在top-k候选的比例
- 约束:k=1k=1k=1(准确率)和 k=10k=10k=10(召回率)
创新点
创新点1:KG-LLM协同框架
机制:
- RAGAT学习正交关系变换矩阵 Mij=I−2hrhrTM_{ij} = I - 2h_r h_r^TMij=I−2hrhrT 保持嵌入空间度量不变性
- LLM生成虚拟等价实体提供跨语言语义约束
有效性证据:消融实验显示移除虚拟实体候选使Hits@1↓0.73%(FR-EN数据集)
创新点2:多轮多选预测机制
机制:
- 将候选实体迭代分为4选项子集(符合LLM常见输入格式)
- 每轮保留预测实体,更新候选集直至收敛
有效性证据:相比单轮预测,错误率降低19.2%(JA-EN数据集分析)
创新点3:三路候选生成
机制:联合
- 结构相似性(余弦距离)
- 名称相似性(GloVe嵌入L2距离)
- 虚拟实体编辑距离相似性
有效性证据:消融实验显示结构候选贡献最大(移除后Hits@1↓18.47%)
方法与核心思路
整体框架
模块分解
1. 知识嵌入模块
RAGAT层计算:
hi(l)=σ(∑j∈NiαijMijhj(l−1)) h_i^{(l)} = \sigma \left( \sum_{j \in N_i} \alpha_{ij} M_{ij} h_j^{(l-1)} \right) hi(l)=σj∈Ni∑αijMijhj(l−1)
正交约束:
Mij=I−2hrhrTs.t.MijTMij=I M_{ij} = I - 2h_r h_r^T \quad \text{s.t.} \quad M_{ij}^T M_{ij} = I Mij=I−2hrhrTs.t.MijTMij=I
注意力系数:
αij=exp(qThij)∑u∈Niexp(qThiu),hij=σ(hi+hj) \alpha_{ij} = \frac{\exp(\mathbf{q}^T \mathbf{h}_{ij})}{\sum_{u \in N_i} \exp(\mathbf{q}^T \mathbf{h}_{iu})}, \quad \mathbf{h}_{ij} = \sigma(h_i + h_j) αij=∑u∈Niexp(qThiu)exp(qThij),hij=σ(hi+hj)
输出拼接:
hiout=[hi(0)∥hi(1)∥⋯∥hi(L)] h_i^{\text{out}} = [h_i^{(0)} \| h_i^{(1)} \| \cdots \| h_i^{(L)}] hiout=[hi(0)∥hi(1)∥⋯∥hi(L)]
2. 候选生成模块
三路策略:
-
结构候选 OsO_sOs:top-k(cos(histruct,hjstruct))\text{top-k}(\cos(h_i^{struct}, h_j^{struct}))top-k(cos(histruct,hjstruct))
-
名称候选 OnO_nOn:top-k(−∥ni−nj∥2)\text{top-k}(-\|n_i - n_j\|_2)top-k(−∥ni−nj∥2)
-
虚拟实体候选 OlO_lOl:
sim(s1,s2)=1−d(s1,s2)max(∣s1∣,∣s2∣) \text{sim}(s_1, s_2) = 1 - \frac{d(s_1, s_2)}{\max(|s_1|, |s_2|)} sim(s1,s2)=1−max(∣s1∣,∣s2∣)d(s1,s2)其中 d(⋅)d(\cdot)d(⋅) 为编辑距离
3. LLM预测模块
迭代算法:
def LLM_predict(e_src, O):
U = O # 未选择候选集
e_pred = None
while U:
options = sample(U, 3) + [e_pred] if e_pred else sample(U, 4)
response = LLM_query(mcq_prompt(e_src, options))
e_next = parse_response(response)
U = U - set(options) | {e_next}
e_pred = e_next
return e_pred
复杂度分析
- 时间复杂度:
- RAGAT训练:O(∣T∣⋅d2)O(|T| \cdot d^2)O(∣T∣⋅d2)(∣T∣|T|∣T∣为三元组数)
- LLM预测:O(∣O∣⋅c)O(|O| \cdot c)O(∣O∣⋅c)(ccc为LLM单次调用开销)
- 空间复杂度:O(∣E∣⋅d+∣R∣⋅d)O(|E| \cdot d + |R| \cdot d)O(∣E∣⋅d+∣R∣⋅d)
- 关键参数:嵌入维度 d=300d=300d=300,候选数 k=10k=10k=10,RAGAT层数 L=2L=2L=2
设计选择依据
- 正交变换:保持向量范数不变(公式5推导证明)
- 4选项设计:对齐常见多选问题格式(减少LLM混淆)
- 负样本池:动态维护困难负样本加速收敛
实验设置
数据集
数据集 | 源KG实体数 | 关系数 | 三元组数 | 目标KG实体数 |
---|---|---|---|---|
DBPZH-EN | 95,142 | 1,323 | 19,572 | 70,414 |
DBPJA-EN | 93,484 | 2,451 | 19,780 | 77,214 |
DBPFR-EN | 115,772 | 1,208 | 19,993 | 105,998 |
基线方法
18种SOTA方法,包括:
- 结构嵌入类:MTransE, RREA, GCN-Align
- 多模态融合类:DAT, MCLEA
- 约束优化类:IPEA, CEAFF
评价指标
- Hits@1:准确率(主要指标)
- Hits@10:top-10召回率
实现细节
- 框架:PyTorch
- 硬件:未说明
- 超参数:
- 学习率:0.005 (RMSProp)
- Batch size:1024
- 训练轮数:12
- LLM:ERNIE (百度文心)
- 随机性:5次随机种子实验取平均
实验结果与分析
主结果对比
方法 | ZH-EN Hits@1 | JA-EN Hits@1 | FR-EN Hits@1 |
---|---|---|---|
最佳基线 | 71.8 (DAT) | 89.3 (DAT) | 78.3 (DAT) |
LLMEA | 89.8 | 95.7 | 91.1 |
绝对提升:+18.0% (ZH-EN), +6.4% (JA-EN), +12.8% (FR-EN) |
消融实验
消融组件 | ZH-EN Hits@1 ↓ | JA-EN Hits@1 ↓ | FR-EN Hits@1 ↓ |
---|---|---|---|
移除 OsO_sOs | 18.9% | 17.6% | 18.9% |
移除 OnO_nOn | 2.4% | 2.1% | 2.2% |
移除 OlO_lOl | 0.8% | 0.7% | 0.7% |
移除LLM预测 | 22.3% | 20.1% | 21.8% |
关键分析
- LLM比较:ERNIE > GPT-3.5 > Qwen(知识增强预训练优势)
- 候选数 kkk 影响:k=10k=10k=10 时最优(图8)
- 种子比例敏感性:10%种子时LLMEA仍保持85%+ Hits@1(图9)
误差分析与失败案例
错误类型
- 特殊字符干扰
- 案例:
Saint-Frédéric, Quebec
vsSaint-Frédéric
(逗号导致LLM误判)
- 案例:
- LLM拒绝回答
- 原因:隐私政策限制(如LLaMA 2)
- 非格式化输出
- 案例:LLM返回改写实体名而非选项索引
边界条件
- 低资源语言实体(日文罕见字符)
- 长实体名称(>50字符)
改进方向
直接分析LLM对选项token的概率输出
复现性清单
可用资源
- 代码:未提供
- 数据:公共数据集(DBPZH/JA/FR-EN)
- 模型权重:未提供
- 环境:PyTorch + ERNIE API(版本未指定)
缺失项
- 硬件配置
- 详细依赖版本
- 运行脚本
结论与未来工作
结论
LLMEA通过KG结构嵌入与LLM语义知识融合,结合多轮预测机制,显著提升实体对齐性能(+12.4% Hits@1)。
未来工作
- 探索LLM生成实体背景知识增强嵌入
- 将KG转为文本格式供LLM直接理解
- 开源计划:未明确时间表
可推广性
框架适用于任何生成候选对齐的模型,需调整LLM提示工程适应不同领域。