网络数据监控的挑战与应用

### 网络数据监控的挑战与应用 #### 1. 引言网络是人类历史上最大的可普遍访问的信息体，且正以健康的速度持续增长。曾经由少数专家开发和使用的网络，如今已成为面向大众的庞大分布式信息库。然而，网络除了规模大、分布广泛和异构性强之外，还存在诸多问题，如大量信息不可信（如垃圾邮件、谣言等）、许多信息陈旧（如废弃网站或不再维护的页面），即便网站或页面正常运行，我们对其的认知也可能过时（如网页全文索引往往无法及时反映页面的最新变化）。为了克服这些困难，我们需要对网络进行“监控”。具体而言，网络机器人需要不断在网络上寻找新信息，通常通过爬行网页或查询网络上发布的数据库来实现。然后，机器人需要分析这些信息，例如评估所发现数据的质量并进行分类。最后，它们需要对数据进行监控，以检测数据的变化。 #### 2. 待监控数据的性质网络最初围绕 HTML 进行了非常统一的开发，其主体由超文本文档构成。随着网络的发展，变得日益复杂，如今可找到以下类型的信息： - **HTML**：仍然是网络的骨干，但 DOC、PDF、PS 等流行文档格式也大量存在。 - **XML**：一种新的网络交换格式，由 W3C 和行业推广，正在从根本上改变网络。它在某种程度上结合了文档世界和数据库世界，可以用于表示文档，也可以表示结构化或半结构化数据。 - **查询数据**：许多网络数据是查询数据库系统的结果，通常需要输入查询参数才能获取更多数据。这种通过表单、脚本或使用新的 Web 服务标准（如 SOAP）进行的访问被称为“深网”或“隐藏网”。 - **多媒体格式**：图像、声音、视频等多媒体格式是网络的关键组成部分，但这里暂不讨论。网络机器人大多只能访问网络的 HTML 部分，尽管有些可能会对其他格式（如 Google 对 PDF 的索引）或 XML 进行爬行（如 Xyleme）。数据库通常被爬虫视为停止点，因此深网（规模大于表面网络）仍在爬虫的能力范围之外。不过，大多数人可能更经常使用深网（如订购机票或查询黄页时）。在考虑待监控数据的性质时，还应提及以下方面： - **公共网络与私有网络**：私有网络通常通过 Intranet 或受密码保护的 Internet 访问，主要问题是访问权限的控制。从技术角度看，私有和公共数据没有实质区别。 - **静态与动态**：静态页面可能由 24 小时值班的人员保持更新，而动态页面可能多年返回相同的值。主要问题仍然是数据格式以及是否需要提供查询参数。 #### 3. 与传统数据库的差异虽然 XML 常被视为一种新的数据存储模型，拥有自己的查询语言（Xquery），但这里我们将其主要视为一种交换格式，忽略数据的存储方式（关系型、原生型或其他）或数据的生成方式。如今，人们对 XML 数据的“流”查询越来越感兴趣，即查询针对正在接收的数据，而非存储在数据库中的数据。这与传统数据库技术有着本质的不同，传统数据库技术的核心在于二级存储管理和利用索引，而流查询通常应用于主内存数据，且事先没有可用的索引。网络数据管理还具有其他特点： - **分布式和异构性**：网络数据本质上是分布式和异构的，类似于分布式数据库或联邦数据库，但网络上数据源的数量众多（数十、数百、数千），且联邦数据库通常假设数据源的语义是明确的，这一假设在网络环境中并不适用。我

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

网络数据监控的挑战与应用

相关推荐

专栏目录

网络数据监控的挑战与应用

相关推荐

网络监控技术的研究与应用

【网络运维与安全】数据流量采集系统：网络流量、日志与业务数据分析处理及应用

安防智能海康威视视频监控平台的大数据分析技术及应用：提升监控效能与智能决策能力

大数据在公路工程质量监控中的应用与挑战.pdf

大数据在公路工程质量监控中的应用与挑战.docx

大数据在公路工程质量监控中的应用与挑战.zip

视频监控技术不断发展-以应对数据和网络安全挑战.docx

通信与网络中的网络门禁在金融监控中的应用

区块链技术在网络监控中的应用.pptx

基于测量机器人的碾压质量监控系统数据处理与应用.pdf

[C语言]一本很厚的C语言学习笔记——第一章（谭浩强版本）

commons-codec-1.5.jar中文文档.zip

专栏目录

最新推荐

海洋工程仿真：Ls-dyna应用挑战与解决方案全攻略

【水管系统水头损失环境影响分析】：评估与缓解策略，打造绿色管道系统

【MATLAB信号处理项目管理】：高效组织与实施分析工作的5个黄金法则

性能瓶颈排查：T+13.0至17.0授权测试的性能分析技巧

【AutoJs社区贡献教程】：如何为AutoJs开源项目贡献代码（开源参与指南）

【探索】：超越PID控制，水下机器人导航技术的未来趋势

Cadence AD库管理：构建与维护高效QFN芯片封装库的终极策略

【LabView图像轮廓分析】：算法选择与实施策略的专业解析

嵌入式系统开发利器：Hantek6254BD应用全解析