跨语言维基百科信息框补全：利用DBpedia映射的研究

立即解锁

发布时间: 2025-08-30 01:50:08 阅读量: 27 订阅数: 28

基于文本挖掘的课程相似性分析

### 跨语言维基百科信息框补全：利用DBpedia映射的研究 #### 1. 背景与目的维基百科作为一个重要的知识来源，需要保证信息的高质量和可靠性。然而，由于其多语言版本的存在，信息框中可能会出现各种错误，如同一属性在不同语言版本中有不同的值（Type III错误）。为了提高维基百科信息框的信息质量，我们开展了一项研究，旨在通过纠正Type I和II错误，利用DBpedia映射自动为没有信息框的页面生成新的信息框，或为现有信息框添加更多信息。 #### 2. 相关工作 - **模式匹配**：信息框对齐问题可视为模式匹配问题。此前有研究者尝试通过将中文属性音译为字母并取首字母，结合人工构建的领域本体来确定中英文属性的映射；也有通过将源本体翻译为目标语言，利用单语言本体匹配方法进行多语言本体对齐。但这些方法难以应用于信息框数据匹配，因为信息框的数据类型约束较为宽松。 - **跨语言信息框对齐**：已有多项研究致力于不同语言维基百科信息框的对齐。例如，有研究利用维基百科的多语言特性和跨语言链接，以65%的精度对齐荷兰语和英语维基百科的模板和属性，并能在荷兰语维基百科中生成50%的新属性 - 值对；还有研究开发了WikiMatch工具，不使用字典或翻译器，通过结合三种相似度度量来对齐不同语言的信息框。 - **跨语言DBpedia丰富**：DBpedia作为从维基百科提取的结构化信息，由于其多语言性质，存在不一致和不完整的问题。社区成员通过众包努力解决这些问题，同时也有研究探索开发自动系统来更好地对齐多语言DBpedia，如利用属性映射频率扩展现有对齐，或使用三元概念化技术寻找语义对应的属性。 #### 3. 跨语言信息框补全模型我们开发了一个模型，用于比较韩语维基百科和英语维基百科的信息框，以确定应从源信息框添加哪些信息到目标信息框。该模型主要由四个部分组成：映射表、信息框对齐、信息框生成器和信息框填充器。 - **映射表**：映射表包含从DBpedia提取的映射信息。对于每种语言，我们构建了模板映射表和属性映射表，通过这些表可以找到语义相似的属性/模板对。对于一对多的映射，我们只选择一个公共属性纳入映射表，并在匹配过程中考虑所有出现在信息框中的属性。 | Attribute_ko | Attribute_en | DBpedia_property | | --- | --- | --- | | 이름 | name | foaf:name | | 출생지 | birth_place | dbo:birthPlace | | 사망지 | death_place | dbo:deathPlace | | 개교 | established | dbo:established | | 학생수 | students | dbo:numberOfStudents | - **模板对齐**：为了生成新的信息框，需要确定信息框的三个组成部分：模板、属性和值。模板对齐过程通过将源模板与现有信息框中使用的模板对齐，来确定新信息框应使用的模板。存在两种情况： - 源模板已映射到DBpedia本体类：通过模板映射表找到也映射到同一类的英语信息框模板。例如，韩语维基百科的“군인”模板和英语维基百科的“military person”模板都映射到“MilitaryPerson”类，因此可以在创建新信息框时使用“military person”模板。 - 源模板未映射到DBpedia本体类：通过查看两个信息框中模板的共现次数来选择最适合的模板。具体步骤如下： 1. 设PS为源语言的文章集合，PS′为通过跨语言链接与PS中的元素相连的目标语言文章集合。设TS为源模板，TS′为我们要确定的目标模板。 2. 计算PS′中每个模板的总出现次数。 3. 出现次数最多的模板将成为TS′。 - **属性对齐**：属性对齐的目的是找到语义相似的跨语言属性对。同样存在两种情况： - 源属性和目标属性通过映射到相同的DBpedia本体属性相连：可以直接从已构建的映射表中获取映射信息。 - 源属性或目标属性没有与DBpedia本体属性的映射信息：使用基于实例的方法来寻找新的对齐。具体步骤如下： 1. 设S为文章对集合Pl - Pl′，其中l为源语言，l′为目标语言，且每个Pl包含一个使用模板T的信息框。 2. 设A为所有Pl中的属性集合，A′为所有Pl′中的属性集合，其中A中的每个元素不在映射表中。对于每个属性对(al, al′)，计算相似度sima： - \(sima(al, al') = \frac{\sum_{s \in S} siminstance(al, al')}{|S|}\) 3. 丢弃sima < a的属性对。 4. 对于每个al，找到具有最大值的(al, al′)并添加到匹配集Ma。 5. 将Ma添加到映射表。由于信

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

跨语言维基百科信息框补全：利用DBpedia映射的研究

相关推荐

专栏目录

跨语言维基百科信息框补全：利用DBpedia映射的研究

相关推荐

infobox-DBpedia:从 DBpedia 获取维基百科信息框数据的 JS 代码

infoboxer:维基百科信息提取库

defexpand:使用DBpedia本体和WordNet概括定义

数据库更新策略与跨语言维基百科信息框补全

gAnswer:基于DBpedia的KBQA系统

lapps-dbpedia-spotlight:用于DBpedia-Spotlight服务的LAPPS包装器

sci-graph-links:将DBpedia链接到SciGraph

Entity-alignment-system:基于DBPedia和YAGO的远足框架和数据集的实体对齐系统（未完成）

movie-recommendation:基于dbpedia数据的用Java编写的电影推荐应用

witch-head-guru-gui:基于 dbpedia.org 的人工智能

anaconda升级到3.8

test11111111111111111111111111

专栏目录

最新推荐

从采集到智能分析：ADS-B航空大数据完整路径全解读

传统行业加速退场：哪些板块正从中证500中悄然消失？行业衰落轨迹全记录

DPI感知与高清屏适配：彻底解决高分屏截图模糊

UML建模规范权威指南：写出高质量、易维护模型文件的8项标准准则

按键消抖技术深度解析：99%工程师忽略的输入可靠性提升秘诀

行为面试问题与职业建议综合指南

区块链重构供应商信任机制：应用场景与技术挑战全面曝光

【深度长文】多层膜结构中倏逝波传播机制揭秘：透射率影响因素全解析

机器学习与深度学习入门指南