概念/人物之间的共指消解探索
共指消解是人类语言中的一种基本机制,它使两个句子能够指向同一事物。这在人类交流中非常重要,其作用类似于编程语言中的变量名,但范围的定义规则与编程块有很大不同。在商业领域,共指消解的重要性相对较低,不过随着技术发展,其应用前景也在逐渐扩大。例如,“Alice walked into the garden. She was surprised.” 中,“Alice” 和 “She” 存在共指关系,它们指代同一事物。当我们开始思考不同文档中的 “Alice” 是否为同一人时,共指消解就变得更加有趣和具有挑战性。
文档内命名实体共指消解
LingPipe 可以使用多种技术识别对应于人物、地点、事物、基因等的专有名词。然而,仅仅进行分块处理并不足以完成共指消解任务,因为它无法确定两个命名实体是否指代同一事物。能够识别 “John Smith” 与 “Mr. Smith”、“John” 甚至重复的 “John Smith” 为同一实体是非常有用的。基于此,产生了基于实体的摘要方法,即生成按实体索引的句子,这是一种很好的总结关于该实体描述的方式,尤其在跨语言映射时更为有效。
这个方法的灵感来源于 Baldwin 在宾夕法尼亚大学研究生研讨会上的一次演讲。当时的系主任 Mitch Marcus 认为,展示所有提及某个实体(包括代词)的句子将是对该实体的一个很好的总结。从某种意义上说,这一观点促成了 LingPipe 的诞生,进而引发了 Baldwin 领导的宾夕法尼亚大学 DARPA 项目以及 Alias - i 的创建。这也告诉我们,要与他人分享自己的想法和研究。
下面我们来了解计算共指消解的基础知识:
- 准备工作