基于本体的商业智能信息与事件提取系统BEECON解析
立即解锁
发布时间: 2025-08-29 11:48:13 阅读量: 4 订阅数: 16 

### 基于本体的商业智能信息与事件提取系统BEECON解析
#### 1. BEECON系统概述
BEECON是一款基于本体的商业智能信息与事件提取系统,它构建于GATE环境之上。GATE是一个多阶段的自然语言处理(NLP)引擎,能提供一系列强大的处理资源。BEECON通过一系列GATE处理器组成的管道来处理输入文档,主要包括预处理和特征提取两个阶段。
- **预处理阶段**:输入文档会依次经过标准处理资源,如句子分割器、分词器、词性标注器和形态分析器。
- **特征提取阶段**:包括命名实体识别(NE)和共指消解。此阶段使用了专门为商业领域定制的组件,以及一些新开发的组件。
#### 2. 实体检测
##### 2.1 命名实体识别
BEECON使用基于规则的处理资源和地名词典来识别通用类型的实体(如名称、地点),同时利用本体来识别特定领域的实体,如目标公司及其产品。地名词典列表在标准GATE地名词典基础上进行了扩展,包含了更多与商业领域相关的实体,还创建了新的列表,如分析师和评级机构、证券交易所和财务指标等。
本体通过Onto Root Gazetteer组件来发现命名实体。该组件是一个GATE处理资源,能从本体动态构建普通地名词典。它会对本体中的所有项进行预处理,并标注词性标签和词元,然后结合其他GATE组件为给定文本文档创建基于本体的注释。通过特定领域的地名词典、规则和本体信息,BEECON可以自动提取实体,无需用户输入。
##### 2.2 共指消解
在新闻文章中,命名实体(如公司或个人)常通过不同的语言表达来指代,BEECON的共指消解处理器负责区分哪些表达指代同一实体。它能处理日期、人员、组织和地点等信息,还采用了一种专门为检测公司提及而设计的新型共指消解算法。该算法首先找到与公司引用对应的实体,然后处理句子开头的引用情况,最后解决剩余的引用问题。目前,在测试数据集上,大部分公司引用都能被正确检测并与已检测到的公司引用关联起来。
#### 3. 事件检测
##### 3.1 事件类型
BEECON目前能够识别在专门构建的领域本体CoProE中指定的41种事件类型,涵盖11个事件类别,如公司增长、公司合作、工作和股票事件、破产和法律问题等。以下是部分重要事件类别的示例:
| 事件类别 | 包含的事件类型 |
| ---- | ---- |
| 公司报告事件 | 公司会议、电话会议和债务融资等 |
| 产品事件 | 产品发布、召回和问题等 |
| 公司基本信息变更 | 公司股票上市、名称或会计程序变更、重组和就业变更等 |
| 股票事件 | 公司支付股息、股票回购、股票拆分等 |
| 专利事件 | 专利申请和授权等 |
##### 3.2 检测规则
事件检测的核心是约200条为Java注释模式引擎(JAPE)手工编写的语法规则。JAPE模式是一种高级的上下文感知正则表达式,由词汇特征组成。每个模式都是文本分析的结果,代表了用于描述特定事件的独特语言结构。这些模式会与文本进行匹配,以发现和提取事件及其特征。例如,检测公司增长/收购事件类型的BEECON JAPE规则如下:
```
“IBM said on Monday it has agreed to pay $1.7 billion for Netezza.”
Rule: Acquisition_A_pay_money_for_B
({Organization}):acquirer
({Token, !Split})*
{Token.root == "pay"}
{Money}
{Token.category == "IN"}
({Token, !Split, !Organization})*
({Organization}):acquired
```
在这个例子中,输入句子经过预处理,每个标记都有词性和形态注释。当事件检测阶段开始时,如果规则的模式与输入句子完全匹配,就会触发该规则。事件的时间“Monday”会在后续阶段根据新闻发布时间规范为“日 - 月 - 年”格式。
#### 4. 输出
BEECON以语义三元组的形式提供输出,这些三元组是本体信息的最小单位,例如`[Microsoft, hasStockExchangeTicker, MSFT]`。特征提取的输出会被格式化为由事件分隔标签包围的三元组。以收购示例为例,BEECON的输出如下:
```
[Acquisition, hasAcquiringCompany, IBM]
[Acquisition, hasAcquiredCompany, Netezza]
[Acquisition, hasMoney, $1.7 billion]
```
每个三元组会转换为符合专门构建的API的RDF语法。API不仅将三元组存储在本体中,还确保三元组携带的信息是新信息,而非已知事实。存储在知识库中的新发现信息可以通过各种文本挖掘和知识发现技术进行分析。
#### 5. 系统开发与评估
##### 5.1 数据收集
0
0
复制全文
相关推荐








