爬虫基础入门理论上篇

最新推荐文章于 2023-12-12 17:27:54 发布

锅锅聊软测

最新推荐文章于 2023-12-12 17:27:54 发布

阅读量407

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫单元测试测试工具测试用例开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_68548441/article/details/125558895

本文介绍了爬虫基础入门时需要注意的法律和道德问题，包括遵守Robots协议、避免过度采集、不采集隐私数据、尊重网站声明以及禁止商业用途。同时，提到了爬虫工程师的角色和技能要求，如Python编程、HTTP协议和数据库操作。建议学习者从基础Python语法开始，逐步掌握网页解析、反爬策略和数据库存储等知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近年来由于抓取数据而引起的纠纷越来越多，有的锒铛入狱，有的被处罚金，本人爬虫笔记学习提醒大家：爬虫有风险，采集需谨慎，写代码不能违法，写代码背后也有法律风险

1.1爬虫注意点

1.1.1遵守Robots协议

Robots协议，也称为爬虫协议、机器人协议等，全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉爬虫哪些页面可以抓取，哪些页面不能抓取

如何查看网站的rebots协议？

（1）打开浏览器，在地址栏中输入http://网站域名/robots.txt即可，以查询百度的robots协议为例；Disallow后边的目录是禁止所有搜索引擎搜索的

（2）或者借助相关网站进行查看，如站长工具等，浏览器打开
http://s.tool.chinaz.com/robots，输入网站地址，点击查询即可

1.1.2.不过度采集数据

过度数据采集会对目标站点产生非常大的压力，可导致目标站点服务器瘫痪、不能访问等，相当于网络攻击。学习过程中抓取数据不可贪多，满足学习需求即可，损害他人权益的事不能做

1.1.3.不要采集隐私数据

有选择地采集数据，别人不让看的数据不要爬，私人数据不要爬，如手机号、身份证号、住址、个人财产等不要抓取，受法律保护的特定类型的数据或

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

锅锅聊软测 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。