2023 ACM Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and LLM

论文基本信息

题目

Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment

作者

Linyao Yang, Hongyang Chen∗ (通讯作者), Xiao Wang, Jing Yang, Fei-Yue Wang, Han Liu

机构

  • Zhejiang Lab, China
  • Anhui University, China
  • Institute of Automation, Chinese Academy of Sciences, China
  • Dalian University of Technology, China

发表地点与年份

Journal of the ACM (J. ACM), Volume 37, Issue 4, Article 111, August 2023

关键词术语

  • Entity Alignment (实体对齐): 识别不同知识图谱(KG)中等价实体的任务
  • Knowledge Fusion (知识融合): 整合多源知识的技术
  • Relation-Aware Graph ATtention network (RAGAT): 考虑关系信息的图注意力网络
  • Virtual Equivalent Entity (虚拟等价实体): 由LLM生成的跨语言等价实体表示

摘要(详细复述)

背景

实体对齐是构建统一知识图谱的关键前提任务,现有方法主要依赖知识嵌入模型捕获结构/关系/属性相似性,但异构信息融合仍具挑战性;大型语言模型(LLM)隐含的语义知识尚未被有效利用。

方案概述

提出LLMEA框架:

  1. 使用RAGAT学习KG结构嵌入
  2. 基于嵌入相似性和编辑距离筛选候选实体
  3. 通过多轮多选问题利用LLM推理能力预测对齐

主要结果

  • 在DBPZH-EN、DBPJA-EN、DBPFR-EN三个数据集上超越所有基线
  • Hits@1平均提升12.4%(相比最佳基线DAT)
  • 消融实验验证各组件贡献:结构候选实体贡献度最高(移除后Hits@1↓18.47%)

结论与意义

首次整合KG结构化知识与LLM语义知识,为实体对齐提供新范式;证明LLM的推理能力可显著提升对齐精度。


研究背景与动机

学术场景与痛点

场景:多源KG融合需解决实体对齐问题,例如整合英文DBpedia与中文百科。
核心痛点:

  1. 异构信息融合困难(结构/属性/语义模态差异)
  2. LLM隐含的跨语言实体知识未被充分利用

主流路线与局限

方法类别代表工作优点不足
结构嵌入方法RREA, GCN-Align捕获拓扑相似性忽略语义信息
多模态融合方法MCLEA, DAT融合多源特征模态对齐困难
约束优化方法IPEA, CEAFF强制一对一约束计算复杂度高(NP-hard)

问题定义(形式化)

输入/输出

  • 输入:两个KG G1=(E1,R1,T1)G_1 = (E_1, R_1, T_1)G1=(E1,R1,T1)G2=(E2,R2,T2)G_2 = (E_2, R_2, T_2)G2=(E2,R2,T2)
  • 输出:等价实体对集合 P={(ei,ej)∣ei∈E1,ej∈E2,ei≡ej}P = \{(e_i, e_j) | e_i \in E_1, e_j \in E_2, e_i \equiv e_j\}P={(ei,ej)eiE1,ejE2,eiej}

符号定义

  • EEE:实体集合,RRR:关系集合,TTT:三元组集合
  • hi∈Rdh_i \in \mathbb{R}^dhiRd:实体 eie_iei 的嵌入向量
  • NiN_iNi:实体 eie_iei 的邻居集合

目标函数

最小化对齐损失:

L=∑(ei,ej)∈P[δ+dist(hi,hj)−dist(h~i,h~j)]+ L = \sum_{(e_i,e_j) \in P} [\delta + \text{dist}(h_i, h_j) - \text{dist}(\tilde{h}_i, \tilde{h}_j)]_+ L=(ei,ej)P[δ+dist(hi,hj)dist(h~i,h~j)]+

其中 δ\deltaδ 为间隔超参数,dist\text{dist}dist 为L2距离,[⋅]+=max⁡(⋅,0)[\cdot]_+ = \max(\cdot, 0)[]+=max(,0)

评测指标

  • Hits@k:正确对齐实体出现在top-k候选的比例
  • 约束:k=1k=1k=1(准确率)和 k=10k=10k=10(召回率)

创新点

创新点1:KG-LLM协同框架

机制:

  • RAGAT学习正交关系变换矩阵 Mij=I−2hrhrTM_{ij} = I - 2h_r h_r^TMij=I2hrhrT 保持嵌入空间度量不变性
  • LLM生成虚拟等价实体提供跨语言语义约束
    有效性证据:消融实验显示移除虚拟实体候选使Hits@1↓0.73%(FR-EN数据集)

创新点2:多轮多选预测机制

机制:

  • 将候选实体迭代分为4选项子集(符合LLM常见输入格式)
  • 每轮保留预测实体,更新候选集直至收敛
    有效性证据:相比单轮预测,错误率降低19.2%(JA-EN数据集分析)

创新点3:三路候选生成

机制:联合

  1. 结构相似性(余弦距离)
  2. 名称相似性(GloVe嵌入L2距离)
  3. 虚拟实体编辑距离相似性
    有效性证据:消融实验显示结构候选贡献最大(移除后Hits@1↓18.47%)

方法与核心思路

整体框架

RAGAT结构嵌入
候选生成
LLM虚拟实体生成
多轮LLM预测

模块分解

1. 知识嵌入模块

RAGAT层计算:

hi(l)=σ(∑j∈NiαijMijhj(l−1)) h_i^{(l)} = \sigma \left( \sum_{j \in N_i} \alpha_{ij} M_{ij} h_j^{(l-1)} \right) hi(l)=σjNiαijMijhj(l1)

正交约束:

Mij=I−2hrhrTs.t.MijTMij=I M_{ij} = I - 2h_r h_r^T \quad \text{s.t.} \quad M_{ij}^T M_{ij} = I Mij=I2hrhrTs.t.MijTMij=I

注意力系数:

αij=exp⁡(qThij)∑u∈Niexp⁡(qThiu),hij=σ(hi+hj) \alpha_{ij} = \frac{\exp(\mathbf{q}^T \mathbf{h}_{ij})}{\sum_{u \in N_i} \exp(\mathbf{q}^T \mathbf{h}_{iu})}, \quad \mathbf{h}_{ij} = \sigma(h_i + h_j) αij=uNiexp(qThiu)exp(qThij),hij=σ(hi+hj)

输出拼接:

hiout=[hi(0)∥hi(1)∥⋯∥hi(L)] h_i^{\text{out}} = [h_i^{(0)} \| h_i^{(1)} \| \cdots \| h_i^{(L)}] hiout=[hi(0)hi(1)hi(L)]

2. 候选生成模块

三路策略:

  • 结构候选 OsO_sOstop-k(cos⁡(histruct,hjstruct))\text{top-k}(\cos(h_i^{struct}, h_j^{struct}))top-k(cos(histruct,hjstruct))

  • 名称候选 OnO_nOntop-k(−∥ni−nj∥2)\text{top-k}(-\|n_i - n_j\|_2)top-k(ninj2)

  • 虚拟实体候选 OlO_lOl
    sim(s1,s2)=1−d(s1,s2)max⁡(∣s1∣,∣s2∣) \text{sim}(s_1, s_2) = 1 - \frac{d(s_1, s_2)}{\max(|s_1|, |s_2|)} sim(s1,s2)=1max(s1,s2)d(s1,s2)

    其中 d(⋅)d(\cdot)d() 为编辑距离

3. LLM预测模块

迭代算法:

def LLM_predict(e_src, O):  
    U = O  # 未选择候选集  
    e_pred = None  
    while U:  
        options = sample(U, 3) + [e_pred] if e_pred else sample(U, 4)  
        response = LLM_query(mcq_prompt(e_src, options))  
        e_next = parse_response(response)  
        U = U - set(options) | {e_next}  
        e_pred = e_next  
    return e_pred

复杂度分析

  • 时间复杂度:
    • RAGAT训练:O(∣T∣⋅d2)O(|T| \cdot d^2)O(Td2)∣T∣|T|T为三元组数)
    • LLM预测:O(∣O∣⋅c)O(|O| \cdot c)O(Oc)ccc为LLM单次调用开销)
  • 空间复杂度:O(∣E∣⋅d+∣R∣⋅d)O(|E| \cdot d + |R| \cdot d)O(Ed+Rd)
  • 关键参数:嵌入维度 d=300d=300d=300,候选数 k=10k=10k=10,RAGAT层数 L=2L=2L=2

设计选择依据

  1. 正交变换:保持向量范数不变(公式5推导证明)
  2. 4选项设计:对齐常见多选问题格式(减少LLM混淆)
  3. 负样本池:动态维护困难负样本加速收敛

实验设置

数据集

数据集源KG实体数关系数三元组数目标KG实体数
DBPZH-EN95,1421,32319,57270,414
DBPJA-EN93,4842,45119,78077,214
DBPFR-EN115,7721,20819,993105,998

基线方法

18种SOTA方法,包括:

  • 结构嵌入类:MTransE, RREA, GCN-Align
  • 多模态融合类:DAT, MCLEA
  • 约束优化类:IPEA, CEAFF

评价指标

  • Hits@1:准确率(主要指标)
  • Hits@10:top-10召回率

实现细节

  • 框架:PyTorch
  • 硬件:未说明
  • 超参数:
    • 学习率:0.005 (RMSProp)
    • Batch size:1024
    • 训练轮数:12
  • LLM:ERNIE (百度文心)
  • 随机性:5次随机种子实验取平均

实验结果与分析

主结果对比

方法ZH-EN Hits@1JA-EN Hits@1FR-EN Hits@1
最佳基线71.8 (DAT)89.3 (DAT)78.3 (DAT)
LLMEA89.895.791.1
绝对提升:+18.0% (ZH-EN), +6.4% (JA-EN), +12.8% (FR-EN)

消融实验

消融组件ZH-EN Hits@1 ↓JA-EN Hits@1 ↓FR-EN Hits@1 ↓
移除 OsO_sOs18.9%17.6%18.9%
移除 OnO_nOn2.4%2.1%2.2%
移除 OlO_lOl0.8%0.7%0.7%
移除LLM预测22.3%20.1%21.8%

关键分析

  1. LLM比较:ERNIE > GPT-3.5 > Qwen(知识增强预训练优势)
  2. 候选数 kkk 影响:k=10k=10k=10 时最优(图8)
  3. 种子比例敏感性:10%种子时LLMEA仍保持85%+ Hits@1(图9)

误差分析与失败案例

错误类型

  1. 特殊字符干扰
    • 案例:Saint-Frédéric, Quebec vs Saint-Frédéric(逗号导致LLM误判)
  2. LLM拒绝回答
    • 原因:隐私政策限制(如LLaMA 2)
  3. 非格式化输出
    • 案例:LLM返回改写实体名而非选项索引

边界条件

  • 低资源语言实体(日文罕见字符)
  • 长实体名称(>50字符)

改进方向

直接分析LLM对选项token的概率输出


复现性清单

可用资源

  • 代码:未提供
  • 数据:公共数据集(DBPZH/JA/FR-EN)
  • 模型权重:未提供
  • 环境:PyTorch + ERNIE API(版本未指定)

缺失项

  • 硬件配置
  • 详细依赖版本
  • 运行脚本

结论与未来工作

结论

LLMEA通过KG结构嵌入与LLM语义知识融合,结合多轮预测机制,显著提升实体对齐性能(+12.4% Hits@1)。

未来工作

  1. 探索LLM生成实体背景知识增强嵌入
  2. 将KG转为文本格式供LLM直接理解
  3. 开源计划:未明确时间表

可推广性

框架适用于任何生成候选对齐的模型,需调整LLM提示工程适应不同领域。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值