构建用于命名实体识别的语料库派生地名词典及模糊目标规划解决多级多目标问题
立即解锁
发布时间: 2025-08-22 00:09:24 阅读量: 2 订阅数: 13 


组织记忆系统与知识分类研究
### 构建用于命名实体识别的语料库派生地名词典及模糊目标规划解决多级多目标问题
#### 构建用于命名实体识别的语料库派生地名词典
在命名实体识别(NER)领域,有多种方法可用于生成地名词典。一些研究采用手动定义的模式,也就是语法规则。例如,有研究使用词汇模式,结合少量被称为种子的实体来训练自举算法,以推导出更多相关实体。还有研究表明,使用简单的过滤技术来改进自动获取的地名词典,能取得接近最先进NER系统的显著成果。
另外,有研究提出了一种利用实体重复特性的新方法,并结合高效的过滤技术来去除不需要的实体。虽然这种召回增强方法能大幅提高提取性能,但需要整个测试集都可用。受相关工作启发,有研究者提出基于初始定义的实体(种子)自动生成地名词典的方法,还对自举算法进行了小修改以处理新型命名实体,如汽车品牌。
利用语言的结构信息也是自动从文本中诱导地名词典的一种可行方法。有研究成功利用日语的缓存特征、共指关系、句法特征和格框架特征,从日语语料库中生成了地名词典。评估结果显示,使用特定语言的特征能提高系统性能。同时,有研究引入了利用语料库中高频字符串的新方法,该方法以这些字符串在文档中的分布作为候选实体,过滤无效实体,并结合词级特征,以约80%的准确率从中文新闻文章中诱导出了地名词典。
最近,自然语言处理研究开始利用本体中的概念和实例信息用于NER和信息提取(IE)系统。该研究使用rdf:type信息从语料库中自动生成地名词典,通过定义RDF样式表选择相关概念实例的陈述,再将这些实例转换为结构化的地名词典源文件。不过,目前还没有研究从MUC - 3文本语料库生成地名词典。
##### 语料库
文本语料库是文本的集合,大多数语料库会精心平衡一种或多种体裁的材料。语料库中的信息通常是非结构化的,常见的语料库类型包括演讲、电子书、新闻文章和多体裁文本等。1961年建立的布朗语料库是先驱性的语料库,它包含500个按不同体裁分类的英语文本源。部分语料库带有语言注释,如词性标签、命名实体、句法结构和语义角色等,但大多数带注释的语料库不公开,如英国国家语料库。
在本研究中,为支持反恐IE机制的开发,使用了恐怖主义语料库。由美国国防高级研究计划局(DARPA)资助的消息理解会议(MUC)建立了七种类型的语料库,其中两种是美国恐怖主义文本集合。本研究使用的是MUC - 3语料库,它是拉丁美洲恐怖主义新闻记录的集合,但该语料库未加注释。地名词典生成过程的预处理部分依赖单词的词性标签来识别可能的实体组,使用了免费的词性标注器进行标注。
##### 地名词典生成
自动基于语料库的地名词典生成过程框架如下:
```mermaid
graph LR
A[MUC - 3 Text] --> B[POS Tagger]
B --> C[Word / Tag Tokenizer]
C --> D[Tagged Text]
D --> E[Entity Extractor]
E --> F[Noise Filterer]
F --> G[Gazetteer]
H[Grammar Rules] --> E
```
首先,为避免从头开始,采用免费的词性(POS)标注器Brill’s Tagger为MUC - 3文本语料库中的单词分配可能的POS标签。接着,Word/Tag Tokenizer模块对每个单词及其对应的POS标签进行分词。Entity Extractor模块提取所有被分配“单数专有名词”或“复数专有名词”标签(在Brill’s Tagger符号中分别表示为NNP和NNPS)的单词,并应用语法规则来消除可能的歧义。以下是用于识别个人姓名的几个正则表达式:
1. @Honorific CapitalizedWord CapitalizedWord
- @Honorific是荣誉头衔列表,如General、Lieutenant、Captain等。
- 示例:General Ramon Niebels
2. CapitalizedWord CapitalLetter @PersonVerbs
- @PersonVerbs是与人物密切相关的常用动词列表,如{said, met, walked等}。
3. @FirstNames CapitalizedWord
- @FirstNames是从语料库中收集的常用名字列表。
- 示例:Maza Marquez
4. CapitalizedWord CapitalizedWord [,] @PersonSuffix
- @PersonSuffix是常见后缀列表,如{Jr., Sr., II, III等}。
- 示例:Mark Green, Jr.
5. CapitalizedWord CapitalLetter [.] Capital
0
0
复制全文
相关推荐









