64、利用维基百科文章增强词汇向量语义相关性度量中的概念定义

-1

香菜滚出地球

于 2025-08-17 15:59:44 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：数据工程前沿探析文章标签：语义相关性词汇向量维基百科

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smartcontract5/article/details/150984627

数据工程前沿探析专栏收录该内容

76 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

利用维基百科文章增强词汇向量语义相关性度量中的概念定义

1. 引言

语义相关性度量在文本挖掘和信息检索应用中广泛使用。人类凭借对词义的认知知识，能够通过语义判断来回答诸如“鼠标”与“计算机”、“鼠标”与“医学测试”之间的相关性问题。许多自然语言处理研究的目标就是开发一种能在计算上模仿这种能力的智能算法。词汇语义相关性的量化具有广泛的应用，如本体匹配、问答系统增强、机器翻译以及医学诊断和药物不良反应编码等。

语义相关性测量主要有两种计算技术模型：基于分类法的模型和分布式模型。基于分类法的模型利用词汇结构（如分类法），主要处理语义相似性测量；而分布式模型的概念源于“一个词由其所处的语境来表征”这一理念，通过词在语料库中的共现分布来获取词的特征，并在向量空间中进行相关性计算。

词汇向量语义相关性度量是一种基于分布式的方法，它通过从预定义的词库中构建概念定义（词汇），计算概念词汇向量之间的夹角来估计语义相关性。然而，词库往往无法为所有概念，尤其是专业概念，提供全面且富有表现力的定义，这使得定义构建任务具有挑战性。本文尝试通过考虑维基百科文章和其他外部资源来丰富概念的定义，以提高语义相关性测量的可靠性。

2. 相关工作

语义测量主要分为语义相似性测量和语义相关性测量。语义相似性是语义相关性的一种特殊情况，例如“解剖”和“解剖操作”是相似的词，而“解剖”和“手术刀”只是相关。

2.1 语义相似性测量

语义相似性测量依赖于从分类法或词库中导出的概念层次结构。常见的语义相似性测量方法包括：
- 路径测量 ：基于计算分类法中两个输入概念之间最短路径的倒数，但不考虑

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。