©PaperWeekly 原创 · 作者|邸世民
学校|香港科技大学博士生
研究方向|神经结构搜索、知识图谱嵌入
简介
近年来,不同的嵌入(Embedding)模型被提出用以解决多元关系数据(N-ary Relational Data)上的任务 [1,2]。在这些模型中,张量分解模型(Tensor Decomposition Model)由于其对关系表征能力的理论保证使其在各大基准数据集上取得了领先的效果。然而,当前的张量分解模型还存在着不能很好的处理数据稀疏和过参数化的问题。
针对张量模型的俩个问题,本文提出了一种,在给定多元关系数据集上,自动化搜索稀疏张量分解模型的算法 S2S。在链路预测(Link Prediction)任务上,S2S 显示其不仅缓解了张量分解模型的数据稀疏问题,同时降低了模型所需的复杂度,从而获得优异的效果和效率。
本文作为 AutoSF [3] / GETD [4] 的延续工作,首先将 AutoSF 的评分函数(Scoring Function)搜索从知识图谱(Knowledge Graph)扩展到多元关系数据上,并对搜索算法进行了改进,从而减少搜索时间。另外,本文延续 GETD 模型降维的思想,进一步解决张量分解模型的过参数化问题。
论文标题:
Searching to Sparsify Tensor Decomposition for N-ary relational data
论文作者:
邸世民、姚权铭、陈雷
背景介绍
多元关系数据,又称知识库(Knowledge Bases),已经促进了一系列的下游应用,如语义搜索、问答系统、推荐系统。在多元关系数据中,每个 n 元事实是由一个关系和 n 个实体构成的,其形表示为(关系,实体 1,…,实体 n)。
值得注意的是,近年广受研究关注的知识图谱其实是一种特别的二元关系数据,其只包含着二元事实,即为三元组形式(关系,头实体,尾实体)。然而,研究更广泛的多元关系数据,可以进一步帮助人们探索和组织人类知识。
由于多元关系数据集高度不全,补全多元关系数据成为一个关键的任务。为了量化地验证一个给定 n 元事实是否真实存在,嵌入模型提出将关系和实体映射到低维向量空间,再借助评分函数来量化计算 n 元事实的合理性。目前,学术界提出许多在多元关系数据上的嵌入模型。
例如,平移距离模型(Translational Distance Models)m-TransH [1] 提出扩展一个在二元关系数据上知名的模型 TransH。然而,TransH 的表征能力不强,在其上拓展的工作在多元关系数据上的表现欠佳。
另外,NaLP [2]、HINGE [5] 等神经网络模型(Neural Network Models)受到深度学习模型的启发,相继提出不同的网络架构用以学习嵌入。但它们都引入了大量的模型参数,但介于没有很好的正则化方法,使其实证效果并不理想。张量分解模型提出将用一个(n+1)维度的张量 X 来表示 n 元的事实集合,然后再利用 Tucker 张量分解方法将张量 X 分解成为关系和实体的嵌入。
在目前的嵌入模型中,张量分解由于其对表征能力的理论保证,使其实证效果最好。现有的张量分解模型仍然存在两个问题。
<