跨语言维基百科信息框补全:利用DBpedia映射的研究
立即解锁
发布时间: 2025-08-30 01:50:08 阅读量: 27 订阅数: 28 AIGC 


基于文本挖掘的课程相似性分析
### 跨语言维基百科信息框补全:利用DBpedia映射的研究
#### 1. 背景与目的
维基百科作为一个重要的知识来源,需要保证信息的高质量和可靠性。然而,由于其多语言版本的存在,信息框中可能会出现各种错误,如同一属性在不同语言版本中有不同的值(Type III错误)。为了提高维基百科信息框的信息质量,我们开展了一项研究,旨在通过纠正Type I和II错误,利用DBpedia映射自动为没有信息框的页面生成新的信息框,或为现有信息框添加更多信息。
#### 2. 相关工作
- **模式匹配**:信息框对齐问题可视为模式匹配问题。此前有研究者尝试通过将中文属性音译为字母并取首字母,结合人工构建的领域本体来确定中英文属性的映射;也有通过将源本体翻译为目标语言,利用单语言本体匹配方法进行多语言本体对齐。但这些方法难以应用于信息框数据匹配,因为信息框的数据类型约束较为宽松。
- **跨语言信息框对齐**:已有多项研究致力于不同语言维基百科信息框的对齐。例如,有研究利用维基百科的多语言特性和跨语言链接,以65%的精度对齐荷兰语和英语维基百科的模板和属性,并能在荷兰语维基百科中生成50%的新属性 - 值对;还有研究开发了WikiMatch工具,不使用字典或翻译器,通过结合三种相似度度量来对齐不同语言的信息框。
- **跨语言DBpedia丰富**:DBpedia作为从维基百科提取的结构化信息,由于其多语言性质,存在不一致和不完整的问题。社区成员通过众包努力解决这些问题,同时也有研究探索开发自动系统来更好地对齐多语言DBpedia,如利用属性映射频率扩展现有对齐,或使用三元概念化技术寻找语义对应的属性。
#### 3. 跨语言信息框补全模型
我们开发了一个模型,用于比较韩语维基百科和英语维基百科的信息框,以确定应从源信息框添加哪些信息到目标信息框。该模型主要由四个部分组成:映射表、信息框对齐、信息框生成器和信息框填充器。
- **映射表**:映射表包含从DBpedia提取的映射信息。对于每种语言,我们构建了模板映射表和属性映射表,通过这些表可以找到语义相似的属性/模板对。对于一对多的映射,我们只选择一个公共属性纳入映射表,并在匹配过程中考虑所有出现在信息框中的属性。
| Attribute_ko | Attribute_en | DBpedia_property |
| --- | --- | --- |
| 이름 | name | foaf:name |
| 출생지 | birth_place | dbo:birthPlace |
| 사망지 | death_place | dbo:deathPlace |
| 개교 | established | dbo:established |
| 학생수 | students | dbo:numberOfStudents |
- **模板对齐**:为了生成新的信息框,需要确定信息框的三个组成部分:模板、属性和值。模板对齐过程通过将源模板与现有信息框中使用的模板对齐,来确定新信息框应使用的模板。存在两种情况:
- 源模板已映射到DBpedia本体类:通过模板映射表找到也映射到同一类的英语信息框模板。例如,韩语维基百科的“군인”模板和英语维基百科的“military person”模板都映射到“MilitaryPerson”类,因此可以在创建新信息框时使用“military person”模板。
- 源模板未映射到DBpedia本体类:通过查看两个信息框中模板的共现次数来选择最适合的模板。具体步骤如下:
1. 设PS为源语言的文章集合,PS′为通过跨语言链接与PS中的元素相连的目标语言文章集合。设TS为源模板,TS′为我们要确定的目标模板。
2. 计算PS′中每个模板的总出现次数。
3. 出现次数最多的模板将成为TS′。
- **属性对齐**:属性对齐的目的是找到语义相似的跨语言属性对。同样存在两种情况:
- 源属性和目标属性通过映射到相同的DBpedia本体属性相连:可以直接从已构建的映射表中获取映射信息。
- 源属性或目标属性没有与DBpedia本体属性的映射信息:使用基于实例的方法来寻找新的对齐。具体步骤如下:
1. 设S为文章对集合Pl - Pl′,其中l为源语言,l′为目标语言,且每个Pl包含一个使用模板T的信息框。
2. 设A为所有Pl中的属性集合,A′为所有Pl′中的属性集合,其中A中的每个元素不在映射表中。对于每个属性对(al, al′),计算相似度sima:
- \(sima(al, al') = \frac{\sum_{s \in S} siminstance(al, al')}{|S|}\)
3. 丢弃sima < a的属性对。
4. 对于每个al,找到具有最大值的(al, al′)并添加到匹配集Ma。
5. 将Ma添加到映射表。
由于信
0
0
复制全文
相关推荐










