网页数据集成系统:方法与案例研究
1. 引言
网络是信息发布的平台,也是各类信息的最大资源库。网络上存在大量有价值的数据和商业数据,组织或用户可利用这些数据改进决策过程。因此,确保这些信息完整、精确且能及时获取至关重要。同时,对这些外部信息进行系统管理和利用也十分关键。
网页数据源之间存在多种异质性和差异,这使得从不同网络数据源访问、检索和利用信息变得困难且容易出错。在网页数据集成过程中,需要解决这些异质性冲突。异质性冲突可根据以下抽象级别进行分类:
- 数据值冲突 :发生在实例级别,与数据值的表示或解释有关,例如类型、单位、精度和允许值的差异(如“kg”和“gram”,“$”和“dollar”)。
- 模式冲突 :由于一个数据模型为同一现实开发模式的不同选择导致。例如,在一个关系模式中被建模为属性的内容,在另一个关系模式中可能被建模为实体;两个数据源可能使用不同名称表示同一概念,或使用同一名称表示不同概念。
- 数据模型冲突 :当数据库使用不同的数据模型时发生,例如一个数据库基于关系模型设计,另一个是面向对象的。
每个级别上的冲突又可分为句法冲突和语义冲突。句法冲突指数据表示的差异,语义冲突指对相同或相关数据的含义、解释和使用的分歧。
我们的主要目标是解决网页数据集成过程中的异质性冲突。为此,我们首先提出一种网页数据集成系统的方法和架构,然后开发一个针对马来西亚大学的原型系统。
2. 系统方法与架构
研究人员已提出多种网页数据集成方法,如 SIMS、COIN、MOMIS、K