现有知识模型向信息提取本体的转换
1 引言
在当今,各种知识模型被广泛应用,不同类型的知识模型适用于不同领域。在信息提取领域,提取本体用于提取和语义标注数据。传统的信息提取方法,如基于包装器的方法和归纳方法,存在一些局限性,前者依赖于文档结构,后者需要大量标注数据,且两者提取的数据语义结构往往不足,难以用于基于知识的系统。
因此,出现了一种新的方法,即使用结构化本体作为提取模型,也就是提取本体。然而,从头手动创建提取本体既繁琐又容易引入与其他业务模型和知识库的不一致性。所以,我们假设可以通过重用公司现有的元模型或互联网本体库中免费提供的模型来创建提取本体,这样不仅能提高数据处理的一致性,还可能降低创建成本。
2 呈现本体
提取本体定义了要从文档中提取的概念及其属性、允许值和高级约束。根据其内容,提取本体可以被视为信息本体和知识本体。其结构包含以下几个层次:
1. 信息本体层面 :包含期望填充多个实例的概念。
2. 数据结构层面 :类的属性可以表示为一组变量,并与数据类型一起存储,可用于数据库存储提取的数据。
3. 知识本体层面 :包含额外的高级限制,如基数或相互依赖关系。
呈现本体是提取本体的核心部分,它描述了对象在媒体(如网页)中的呈现逻辑结构。通常,呈现本体包含一个核心类,可能还会有其属性和额外约束。与其他概念模型不同,呈现本体的创建需要进行转换过程,一般步骤如下:
1. 选择核心类 C 并添加到呈现本体中。
2. 在呈现本体中创建其属性。
3. 制定属性的本体