Zequn Sun et al. IJCAI 2018.
相关知识介绍
实体对齐(entity alignment)也被称为实体匹配(entity matching),主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
Bootstrap是一种统计学上的估计方法,由Stanford统计学的教授Bradley Efron提出。Bootstrap是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。
个人想法:Bootstrap只是通过多次重抽样对已有样本进行了最大程度的利用,并没有额外增加样本。因为样本有限,抽样次数在足够多的情况下,Bootstrap可以最大程度地估计出当前样本的统计特性。
论文背景
知识图谱(Knowledge Graph,KG)在AI的众多领域中广泛应用,如问答(question answering)、语义搜索(semantic searching)和知识推理(knowledge reasoning)等。知识图谱中知识一般以三元组(h,r,t)的形式表示,其中h表示头实体(head entity),r表示关系(relation),t表示尾实体(tail entity)。为更好地捕捉知识图谱中的隐藏语义,将知识图谱中的元素(如实体、关系等)用低维的向量(embedding)表示。
单一的知识图谱很难满足多元知识的需要,一种有效的方式是通过实体对齐(entity alignment)将多种知识图谱的异构知识集成起来。但有限的训练数据会使得embedding不准确,实体对齐的精确度不高。因此本文提出了一个基于Bootstrap的实体对齐技术。
问题定义
实体对齐的目标是找到集合A=(x,y)∈X×Y∣X∼RYA = {(x,y)\in X\times Y|X\sim_RY}A=(x,y)∈X×Y∣X∼RY,其中XXX表示KG1KG_1KG1的实体集,YYY表示KG2KG_2KG2的实体集, ∼R\sim_R∼R是等价关系。X′X^{'}X′和Y′Y^{'}Y′是已有的训练集。
本文将实体对齐转换成分类问题,即用YYY的实体给XXX的实体打标签,对应概率定义为π(y∣x;θ)=σ(sim(v⃗(x),v⃗(y))),\pi(y|x;\theta) = \sigma(sim(\vec{v}(x), \vec{v}(y))),π(y∣x;θ)=σ(sim(v(x),v(y))),其中,σ(⋅)\sigma(\cdot)σ(⋅)是sigmoid函数,sim(⋅)sim(\cdot)sim(⋅)是余弦相似度度量,θ\thetaθ是KG1KG_1KG1和KG2KG_2KG2的embedding参数。最终,本文的最大似然优化目标为