基于词典示例与平行语料获取的词义消歧及多文档分层索引表研究
立即解锁
发布时间: 2025-08-22 02:20:18 阅读量: 1 订阅数: 8 


自然语言处理与机器翻译进展
### 基于词典示例与平行语料获取的词义消歧及多文档分层索引表研究
在自然语言处理领域,词义消歧(WSD)和多文档分层索引表的构建是两个重要的研究方向。本文将详细介绍基于词典示例与平行语料获取的词义消歧方法,以及多文档分层索引表的生成框架。
#### 词义消歧(WSD)
##### 数据准备
为了评估词义消歧的性能,准备了两个带词义标注的语料库:开发数据(Dd)和评估数据(De)。
- **开发数据(Dd)**:包含17个目标词(8个名词、8个动词和1个形容词)的330个输入句子,用于设计基于示例的WSD方法和优化阈值(T)。
- **评估数据(De)**:包含49个目标词(23个名词、24个动词和2个形容词)的937个输入句子,用于衡量所提出方法的性能。其中,Dd中的17个目标词也是De中的目标词。两个数据集中的输入句子均摘自1994年的《每日新闻》文章,且测试句子相互独立,正确的词义由作者手动标注。
##### 示例句子扩展结果
通过扩展示例句子,示例句子的数量大约增加了1.5倍。自动扩展的示例覆盖了De中36%的词义,且无示例的词义数量减少。对扩展后的句子进行手动评估,自动扩展示例句子的准确率为85%。
| 数据集 | # of TWs | Avg. Sense per TW | 扩展前总示例句子数 | 扩展后总示例句子数 | 扩展前平均每个词义的示例句子数 | 扩展后平均每个词义的示例句子数 | 扩展前无示例的词义数 | 扩展后无示例的词义数 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| Td | 17 | 3.41 | 4,252 | 7,763 | 73.31 | 133.81 | 10 | 8 |
| Te | 49 | 4.65 | 10,998 | 16,468 | 48.23 | 72.23 | 70 | 65 |
在错误分析中发现,选择错误词义的情况大多是因为一个英语单词对应目标词的两个或更多词义。例如,名词“naka”的一个词义S1为{inside, in},表示与容器或地点名称一起使用来说明某物的位置,如“tsukue no naka”(在桌子里);但其他词义也常被翻译为“in”,如“jiyu no naka”(在自由中)。
##### WSD分类结果
在开发数据Dd和评估数据De上,对两种基于示例的分类器RTW和RCW,以及ROB、基线BL和两个组合模型RTW + ROB和RCW + ROB进行了测试。
- **阈值影响**:当阈值(T)设置较高时,RTW和RCW的精度增加,但召回率下降。
- **组合模型优势**:将注重精度的基于示例的方法与强大的ROB分类器相结合,能有效提高WSD的性能,组合模型的准确率优于RTW(或RCW)的F值和ROB的准确率。
- **RTW和RCW比较**:RTW在精度上优于RCW,而RCW在召回率和F值上更优。与Robinson分类器结合时,RTW + ROB优于RCW + ROB。
- **示例句子扩展影响**:扩展示例句子对RTW和RCW的召回率和F值有改善作用,但对精度的影响不明确。在评估数据De上,扩展示例数据库对所有分类器都有显著影响,不仅提高了召回率和F值,还提高了RTW和RCW的精度。
以下是开发数据Dd上的部分结果:
| 分类器 | T | P | R | F |
| ---- | ---- | ---- | ---- | ---- |
| RTW | 0.0 | 0.72 | 0.48 | 0.58 |
| RTW | 0.3 | 0.76 | 0.35 | 0.48 |
| RTW | 0.6 | 0.83 | 0.26 | 0.39 |
| RTW | 0.9 |
0
0
复制全文
相关推荐










