采集一次全网 40 亿网页的硬件支出的成本分析

原创已于 2022-10-20 14:28:14 修改 · 365 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#网络爬虫 #数据挖掘 #人工智能 #大数据 #网络

于 2022-10-20 14:27:34 首次发布

PulsarRPA 专栏收录该内容

24 篇文章

订阅专栏

随着互联网规模的扩大，全网数据采集变得极其复杂。考虑到超过40亿个网页，采集成本主要受网页数量、更新频率和内容质量影响。现代网页的复杂性导致每个网页的采集成本增加，可能需要使用浏览器渲染，每个页面成本约0.001到0.01人民币。据此估算，采集全网一次的硬件支出大约为五百万人民币。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

结论：采集全网一次的硬件支出大约是五百万人民币。

互联网变得越来越庞大和复杂，互联网上的资源类型也越来越丰富多样，最常见的 HTML 网页变得越来越复杂，因此全网数据采集涉及的技术要素非常多。

整个互联网已经变得异常庞大了，现在超过了 40 亿个在线网页，要完整采集整个互联网已经不可能实现了。

The size of the World Wide Web (The Internet)

如果只是大规模采集，并且仅仅考虑 HTML 页面，那么网络爬虫的硬件成本取决于以下几个因素：

采集网页链接的绝对数量
网页更新频率
每网页的内容质量要求

第一个，第二个很好理解，第三个解释一下：

由于网站变得越来越复杂，页面变动越来越频繁，采集一个网页的成本，和你希望数据有多完整密切相关。

在互联网早期，采集一个网页，就是一个简单的 HTML 文本，通常单个 HTTP 请求就能达到目的。在今天，要采集一个网页的完整内容，至少需要用一个真实浏览器来访问它，还要不断和网页进行交互，等待所有数据完整加载，这就意味着单个网页的采集成本大大提高。

事实上，Google 早就在用浏览器渲染采集网页了。我们还记得有一段时间 Google 推出一项功能，鼠标移到搜索结果页的记录上，可以显示整个页面缩略图。如果没有经过浏览器完整渲染一个网页，这是做不到的。

用浏览器渲染采集一个网页，其成本有多高呢？这也是每个网站都不同的。拿全球 TOP 1 电商为例，如果使用第三方云主机，每个页面大小大约 1.5 M, 综合成本大约 0.001 ～ 0.01 人民币，所以采集全网一次的成本就可以估算出来：

0.001 x 40 x 10^8 = 4000000

五百万人民币，这就是采集全网一次消耗的金钱。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。