利用维基百科进行数据库文本属性的语义处理及类关系逻辑查询
立即解锁
发布时间: 2025-08-23 02:02:30 阅读量: 2 订阅数: 10 

### 利用维基百科进行数据库文本属性的语义处理及类关系逻辑查询
#### 信息内容度量
在语义处理中,信息内容度量是重要的一环。Resnik信息内容(IC)度量将从分类结构中获取的信息与从大型文本语料库中凭经验获得的概念概率估计相结合。它把相似度建模为概念共享信息的程度,IC被计算为其最低公共包含项(LCS)的信息内容。其他相关的信息内容度量还有Lin相似度度量和Jiang - Conrath距离(重新表述为一种相关性度量),这两种度量都采用了Resnik提出的信息内容概念。
Seco等人提出了Resnik信息内容的一种变体,仅依靠Wordnet进行信息内容计算,而不使用任何外部语料库。其核心思想是,一般概念的信息内容比更具体的概念少。在树形结构中计算概念一般性的方法是确定一个概念所包含的下位词(被包含的概念)的数量,并根据分类中概念的总规模进行加权。如果每个术语的频率为1,这种信息内容的重新表述与Resnik的表述是等价的,这意味着外部语料库中的频率信息不如拓扑信息重要,特别是概念在分类中的深度信息。
为了计算信息内容度量的值,我们依靠JWPL(Java维基百科库)API。JWPL是一个开源的应用程序编程接口,可实现对维基百科信息的访问。该API可以从维基百科类别图中构建层次结构,去除循环和冗余路径,以便使用信息内容度量来计算相似度值。JWPL中实现的度量采用了Seco的IC定义。由于图的连接性很强,大多数节点的IC值较低。
#### 方法选择
确定一种方法相对于另一种方法的实用性的一个标准是计算其评估结果与人类判断的相关性。使用WordSimilarity - 353来测试方法的语义相关性,WS - 353包含353对术语以及人类提供的相关性判断。通过测量人类为术语对提供的相关性值与被评估方法提供的值之间的相关性,我们可以确定哪种方法的判断更接近人类的判断。
由于WS - 353是对单词对进行评估,而我们评估的是类别对,因此必须对流程进行调整:
1. 为一个术语确定类别时,需要先确定该术语的页面,然后从页面中选择一个类别。这个过程会引入一些歧义,因为一个术语可能有多种含义。为了避免消歧过程引入的噪声,我们选择了WS - 353中包含209对术语的无歧义子集(WS - 209)。
2. 从页面中选择类别也是一个歧义来源,我们通过使用页面的所有类别并进行成对比较来避免这个问题,取比较的平均值和最佳值。
3. 使用JWPL API的扩展对语义相似度度量和信息内容度量进行评估。
4. 使用皮尔逊相关系数计算得到的相关值,具体结果如下表所示:
| 方法 | 相关系数(WS - 209) |
| --- | --- |
| 统计指标 - 平均Jaccard | 0.2559 |
| 统计指标 - 最佳Jaccard | 0.2993 |
| 统计指标 - 平均Sorensen | 0.2741 |
| 统计指标 - 最佳Sorensen | 0.3122 |
| 统计指标 - 平均Mountford | 0.2303 |
| 统计指标 - 最佳Mountford | 0.2841 |
| 语义相似度度量 - 平均Rada | -0.2974 |
| 语义相似度度量 - 最佳Rada | -0.2942 |
| 语义相似度度量 - 平均Leacock - Chodorow | 0.3358 |
| 语义相似度度量 - 最佳Leacock - Chodorow | 0.3635 |
| 语义相似度度量 - 平均Wu - Palmer | 0.2764 |
| 语义相似度度量 - 最佳Wu - Palmer | 0.2635 |
| 信息内容度量 - 平均Resnik | 0.2670 |
| 信息内容度量 - 最佳Resnik | 0.3032 |
| 信息内容度量 - 平均Lin | 0.2760 |
| 信息内容度量 - 最佳Lin | 0.3113 |
| 信息内容度量 - 平均Jiang - Conrath | -0.0565 |
| 信息内容度量 - 最佳Jiang - Conrath | 0.1079 |
为了比较不同的方法,我们提出了一个使用文本术语进行概念查询的应用程序。该应用程序生成我们研究兴趣的结构化表示,这些研究兴趣以研究文章标题的形式存储在数据库中。它从一组文本中生成一个类似分类法的本体形式的概念搜索配置文件,这个概念配置文件可用于从其他来源检索概念上相似的文本,也可用于浏览原始文本。
具体操作步骤如下:
1. 从非结构化文本中提取频繁项集,并构建一个类似分类法的本体,其中本体中的每个概念都用从WordNet中提取的搜索术语进行注释。这些搜索术语提供了一种在一组非结构化文本中搜索概念的方法。
2. 以格拉纳达大学计算机科学系研究人员撰写的500篇研究文章的文本为例,对文本进行句法预处理,随机选择30个标题的子集。
3. 对选定的标题进行语义预处理,并计算领域AP - 结构。处理后,AP - 结构包含以下最大项集:遗传算法、神经网络、编程、数据库和软件。
4. 将每个术语映射到一个维基百科类别,然后应用各种方法。
为了测试和评估这些方法,我们使用生成的本体进行概念搜索。对于本体中的每个概念,使用其关联的搜索术语在原始的500个标题集合上进行查询。由于所有文本的上下文相同,我们可以使用原始集合上的召回率来比较不同的方法。从下面的评估结果表可以看出,召回率随着节点数量的增加而增加。如果我们使用召回率与节点数量的比率来评估方法,那些最接近基线的方法会得到更好的值,因此我们计算从基线开始的召回率增益与新增节点数量的比率,并选择提供最佳结果的阈值。
| 节点数 | 最大深度 | 纠缠度 | 召回率 | 召回率/节点数 | 增益 |
| --- | --- | --- | --- | --- | --- |
| 基线 | 6 | 1 | 0 | 0.196 | 0.0326 | 0 |
| 基线 + WN | 6 | 1 | 0 | 0.26 | 0.0433 | 0 |
| Jaccard起始(t = 0.015) | 15 | 4 | 0.2 | 0.342 | 0.0228 | 0.0091 |
| Jaccard当前(t = 0.015) | 45 | 14 | 0.29 | 0.494 | 0.0109 | 0.0060 |
| Jaccard聚合(t = 0.015) | 18 | 6 | 0.22 | 0.342 | 0.0190 | 0.0068 |
| Sorensen起始(t = 0.03) | 15 | 4 | 0.2 | 0.342 | 0.0228 | 0.0091 |
| Sorensen当前(t = 0.03) | 32 | 7 | 0.25 | 0.442 | 0.0138 | 0.0070 |
| Sorensen聚合(t = 0.03) | 21 | 6 | 0.29 | 0.342 | 0.0162 | 0.0054 |
| Mountford起始(t = 0.002) | 9 | 3 | 0 | 0.266 | 0.0295 | 0.0020 |
| Mountford当前(t = 0.002) | 10 | 3 | 0.1 | 0.266 | 0.0266 | 0.0015 |
| Mountford聚合(t = 0.002) | 10 | 3 | 0.1 | 0.266 | 0.0266 | 0.0015 |
| Rada(t = 0.5) |
0
0
复制全文
相关推荐










