关键词:数据;实体匹配;ER;low resource;机器学习
不久前读的一篇paper,记录一下大致内容。但是懒得写内容了,就把当时做的PPT粘上来吧,我对这个方向可以说是初了解,内容可能有误,请注意甄别
Low-resource Deep Entity Resolution with Transfer and Active Learning
背景
ER
Entity Resolution,实体匹配(也称实体解析),主要完成对不同数据中,相同实体的匹配,比如一个学者在不同论文、数据库、网站的用户名有略微的差异,可能是全名拼音,也可能是首字母,又或是姓和名顺序不同,但实际上他们都是一个人,ER解决的就是把匹配的这些数据相关联,可以丰富对于一个实体的数据规模(比如一个人的社交媒体账号+音乐软件账号+购物平台账号匹配后,获得更加多维度的信息)
传统的ER都是rule-based也就是通过一些特定规则(比如定义一种差异函数,两个字符串差异小于一定数值的就算匹配),但这种方式就需要feature-engineer,需要领域专家的知识和技能,以及相对应的人力成本。
近年来通过使用机器学习,ML-based的ER获得了更高的关注,但是由于深度学习需要很多数据,尤其是需要很多标注的数据,人工成本也上升。而且很多特定的域(domain)实际上不好标注数据,因此需要解决这个low-resource条件下的ER问题。
方法论
DTAL (Deep-Transfer-Active-Learning)
使用迁移学习(来自其他high-resource或者训练好的模型的权重)进行初始化;Active主动学习进行少量人工标注实现高效率训练
结果
结论
本文提出了在低资源(low-resource)条件下通过Transfer Learning和Active Learning进行ER,并指出此方法还有进一步应用的潜力(不局限于ER)