网络数据监控的挑战与应用
立即解锁
发布时间: 2025-08-23 00:10:23 阅读量: 3 订阅数: 18 

### 网络数据监控的挑战与应用
#### 1. 引言
网络是人类历史上最大的可普遍访问的信息体,且正以健康的速度持续增长。曾经由少数专家开发和使用的网络,如今已成为面向大众的庞大分布式信息库。然而,网络除了规模大、分布广泛和异构性强之外,还存在诸多问题,如大量信息不可信(如垃圾邮件、谣言等)、许多信息陈旧(如废弃网站或不再维护的页面),即便网站或页面正常运行,我们对其的认知也可能过时(如网页全文索引往往无法及时反映页面的最新变化)。
为了克服这些困难,我们需要对网络进行“监控”。具体而言,网络机器人需要不断在网络上寻找新信息,通常通过爬行网页或查询网络上发布的数据库来实现。然后,机器人需要分析这些信息,例如评估所发现数据的质量并进行分类。最后,它们需要对数据进行监控,以检测数据的变化。
#### 2. 待监控数据的性质
网络最初围绕 HTML 进行了非常统一的开发,其主体由超文本文档构成。随着网络的发展,变得日益复杂,如今可找到以下类型的信息:
- **HTML**:仍然是网络的骨干,但 DOC、PDF、PS 等流行文档格式也大量存在。
- **XML**:一种新的网络交换格式,由 W3C 和行业推广,正在从根本上改变网络。它在某种程度上结合了文档世界和数据库世界,可以用于表示文档,也可以表示结构化或半结构化数据。
- **查询数据**:许多网络数据是查询数据库系统的结果,通常需要输入查询参数才能获取更多数据。这种通过表单、脚本或使用新的 Web 服务标准(如 SOAP)进行的访问被称为“深网”或“隐藏网”。
- **多媒体格式**:图像、声音、视频等多媒体格式是网络的关键组成部分,但这里暂不讨论。
网络机器人大多只能访问网络的 HTML 部分,尽管有些可能会对其他格式(如 Google 对 PDF 的索引)或 XML 进行爬行(如 Xyleme)。数据库通常被爬虫视为停止点,因此深网(规模大于表面网络)仍在爬虫的能力范围之外。不过,大多数人可能更经常使用深网(如订购机票或查询黄页时)。
在考虑待监控数据的性质时,还应提及以下方面:
- **公共网络与私有网络**:私有网络通常通过 Intranet 或受密码保护的 Internet 访问,主要问题是访问权限的控制。从技术角度看,私有和公共数据没有实质区别。
- **静态与动态**:静态页面可能由 24 小时值班的人员保持更新,而动态页面可能多年返回相同的值。主要问题仍然是数据格式以及是否需要提供查询参数。
#### 3. 与传统数据库的差异
虽然 XML 常被视为一种新的数据存储模型,拥有自己的查询语言(Xquery),但这里我们将其主要视为一种交换格式,忽略数据的存储方式(关系型、原生型或其他)或数据的生成方式。如今,人们对 XML 数据的“流”查询越来越感兴趣,即查询针对正在接收的数据,而非存储在数据库中的数据。这与传统数据库技术有着本质的不同,传统数据库技术的核心在于二级存储管理和利用索引,而流查询通常应用于主内存数据,且事先没有可用的索引。
网络数据管理还具有其他特点:
- **分布式和异构性**:网络数据本质上是分布式和异构的,类似于分布式数据库或联邦数据库,但网络上数据源的数量众多(数十、数百、数千),且联邦数据库通常假设数据源的语义是明确的,这一假设在网络环境中并不适用。我
0
0
复制全文
相关推荐










