利用维基百科文章增强词汇向量语义相关性度量中的概念定义
1. 引言
语义相关性度量在文本挖掘和信息检索应用中广泛使用。人类凭借对词义的认知知识,能够通过语义判断来回答诸如“鼠标”与“计算机”、“鼠标”与“医学测试”之间的相关性问题。许多自然语言处理研究的目标就是开发一种能在计算上模仿这种能力的智能算法。词汇语义相关性的量化具有广泛的应用,如本体匹配、问答系统增强、机器翻译以及医学诊断和药物不良反应编码等。
语义相关性测量主要有两种计算技术模型:基于分类法的模型和分布式模型。基于分类法的模型利用词汇结构(如分类法),主要处理语义相似性测量;而分布式模型的概念源于“一个词由其所处的语境来表征”这一理念,通过词在语料库中的共现分布来获取词的特征,并在向量空间中进行相关性计算。
词汇向量语义相关性度量是一种基于分布式的方法,它通过从预定义的词库中构建概念定义(词汇),计算概念词汇向量之间的夹角来估计语义相关性。然而,词库往往无法为所有概念,尤其是专业概念,提供全面且富有表现力的定义,这使得定义构建任务具有挑战性。本文尝试通过考虑维基百科文章和其他外部资源来丰富概念的定义,以提高语义相关性测量的可靠性。
2. 相关工作
语义测量主要分为语义相似性测量和语义相关性测量。语义相似性是语义相关性的一种特殊情况,例如“解剖”和“解剖操作”是相似的词,而“解剖”和“手术刀”只是相关。
2.1 语义相似性测量
语义相似性测量依赖于从分类法或词库中导出的概念层次结构。常见的语义相似性测量方法包括:
- 路径测量 :基于计算分类法中两个输入概念之间最短路径的倒数,但不考虑