36、网页数据集成系统:方法与案例研究

网页数据集成系统:方法与案例研究

1. 引言

网络是信息发布的平台,也是各类信息的最大资源库。网络上存在大量有价值的数据和商业数据,组织或用户可利用这些数据改进决策过程。因此,确保这些信息完整、精确且能及时获取至关重要。同时,对这些外部信息进行系统管理和利用也十分关键。

网页数据源之间存在多种异质性和差异,这使得从不同网络数据源访问、检索和利用信息变得困难且容易出错。在网页数据集成过程中,需要解决这些异质性冲突。异质性冲突可根据以下抽象级别进行分类:
- 数据值冲突 :发生在实例级别,与数据值的表示或解释有关,例如类型、单位、精度和允许值的差异(如“kg”和“gram”,“$”和“dollar”)。
- 模式冲突 :由于一个数据模型为同一现实开发模式的不同选择导致。例如,在一个关系模式中被建模为属性的内容,在另一个关系模式中可能被建模为实体;两个数据源可能使用不同名称表示同一概念,或使用同一名称表示不同概念。
- 数据模型冲突 :当数据库使用不同的数据模型时发生,例如一个数据库基于关系模型设计,另一个是面向对象的。

每个级别上的冲突又可分为句法冲突和语义冲突。句法冲突指数据表示的差异,语义冲突指对相同或相关数据的含义、解释和使用的分歧。

我们的主要目标是解决网页数据集成过程中的异质性冲突。为此,我们首先提出一种网页数据集成系统的方法和架构,然后开发一个针对马来西亚大学的原型系统。

2. 系统方法与架构

研究人员已提出多种网页数据集成方法,如 SIMS、COIN、MOMIS、K

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值