python爬虫学习总结

最新推荐文章于 2023-03-07 09:24:13 发布

Sakura龙

最新推荐文章于 2023-03-07 09:24:13 发布

阅读量870

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/m0_50728912/article/details/128155903

这篇博客总结了Python爬虫的基础学习，包括使用requests库发送HTTP请求和接收响应，理解URL管理器的作用，以及如何利用Beautiful Soup解析HTML网页。通过学习，可以掌握爬虫的基本工作流程和数据提取技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网络爬虫的入门学习

本总结基于b站学传送门

爬虫基本的几个模块
请添加图片描述

requests库

请添加图片描述

发送request请求

url：要下载的目标网页的url
params：字典形式，设置url后面的参数，比如？id=123&name=xiaoming
data：字典或者字符串，一般用于POST方法提交数据
header：设置user-agent、refer等请求头，来假装是一个真实的用户在进行访问网页
timeout：超时时间，单位是秒
verify：True/False，是否进行HTTPs证书验证，默认是，需要自己设置证书地址
allow_redirects：True/False是否让requests做重定向处理，默认是
cookies：附带本地的cookies数据

接收response响应

r=requests.get/post(url)
//查看状态码，如果等于20o代表请求成功
r.status_code
//可以查看当前编码，以及变更编码 
//(重要!requests会根据Headers推测编码，推测不到则设置为ISo-8859-1可能导致乱码

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Sakura龙

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫学习总结

weixin_41960515的博客

06-02

2888

Python爬虫学习总结一、前提请求网站并提取数据的自动化程序, 网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫基本流程发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便

Python爬虫学习笔记总结(一)

zhusongziye的博客

11-01

2472

〇. python 基础先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯) 关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找. 一. 最简单的爬取程序爬取百度首页源代码: 来看上面的代码: 对于python 3来说,urllib是一个非常重要的一个模块，可以非常方便的模拟浏览器访问互联网...

1 条评论您还未登录，请先登录后发表或查看评论

python爬虫的心得与总结

daniaokuye的专栏

03-28

3万+

最近老板让搞python爬虫，提取地图中水库位置。在开展下一段探索前，先记一些心得体会。一、工欲善其事必先利其器想要爬取网站上的信息，必须有一个好的工具。firefox和chrome都有不错的工具，用chrome比较多，主要讲一下它的使用。喜欢探索细节的小伙伴移到下面的链接：《神器——Chrome开发者工具(一)》以及《chrome Dev tools》。我在这儿介绍一些高频使用的

python爬虫的学习总结

修国栋的博客

07-26

3552

selenium，多线程，多进程，爬取需要登录的网站

关于近期爬虫学习的总结

weixin_34184561的博客

08-20

266

在之前的三篇文章中，我尝试了使用python爬虫实现的对于特定站点的《剑来》小说的爬取，对于豆瓣的短评的爬取，也有对于爬取的短评数据进行的词云展示，期间运用了不少的知识，现在是时间回顾一下。在此之后，我会再关注一些爬虫框架的使用，以及更多的爬虫的优化方法，争取做到尽量多的吸收新知识，巩固旧知识。在参考文章爬虫（1）--- Python网...

【Python学习】Python爬虫学习、总结、收集.zip

01-04

本压缩包文件名为“Python学习】Python爬虫学习、总结、收集.zip”，它可能包含了学习Python爬虫所需的各种资源，从基础知识到实战案例，再到高级技巧的总结和收集。 Python爬虫的基础部分可能涉及到了Python语言...

【Python学习】Python爬虫学习、总结、收集_pgj.zip

最新发布

01-04

学习Python爬虫不仅能够帮助我们高效地获取网络上的信息，还能在数据分析、搜索引擎优化等方面发挥巨大作用。 Python爬虫的基本工作原理是模拟人类用户的行为，通过发送网络请求到目标网站，然后解析网站返回的数据...

Python网络爬虫实习报告总结归纳.docx

06-11

Python网络爬虫是一种用于自动化获取网页内容的技术，广泛应用于互联网数据采集、数据分析和信息监控等领域。在Python中，有许多强大的库和框架可以帮助开发者构建高效、稳定的爬虫程序。一、选题背景随着互联网...

python爬虫学习过程的简单总结

qq_44963682的博客

04-27

684

总结新手在学习爬虫中遇到的疑惑问题，欢迎相关领域的牛人大佬指正错误。

Python爬虫学习总结(1)

m0_48478237的博客

08-02

208

Python语句基础： print语句： #输出表示法 a=2 b=1 print(a,b) print("aaa","bbb","ccc") print("www","baidu","com",sep=".") print("一班有%d个学生"%a) print("aa",end="") print("bbb",end="\t") print("ccc",end="\n") print(type(a))#这是查看a的类型； input语句： #输入表示法 password=input("..

python爬虫总结

01-14

python爬取网络资源整理，总计了一些常见用法及错误方式解析

关于python爬虫的学习总结

qq_40015566的博客

03-31

1175

爬虫的五个步骤明确需求,想想爬什么数据确定含有需要数据的网站分析请求类别,请求时所携带的参数,模拟发送请求下载页面,分析页面,通过re,xpath来过滤response中返回的数据将数据储存起来正则表达式正则表达式的定义描述了一种字符串的匹配模式,可以用来检查一个串是否含有某种字串,见匹配到的字串替换成其他的字符或者取出应用场景测试字符串的是否符合某个模式批量替...

python爬虫总结心得_自学Python十一 Python爬虫总结

weixin_39724009的博客

11-21

1604

通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得，我们渐渐发现他们有很多共性，总是要去获取一系列的链接，读取网页代码，获取所需内容然后重复上面的工作，当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性，试着去写个helper类以避免重复性劳动。1.访问网站 #最简单的得到网页代码的方法1 importurllib22 response = urllib2.urlopen("h...

python网络爬虫_学习python网络爬虫的一点心得

weixin_39669265的博客

11-14

508

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。简单来说就是你写个脚本去抓别人网页上的内容。举个例子，上面这张图片是前程无忧招聘网站上关于python招聘的一些信息，找工作的时候你想把这些数据抓下来放进一个excel表格里面方便你筛选排序对比选择，这时你一个一个链接点开去复制里面的对应条目内容，显然这个简单重复的操作做多了会让你抓狂，这...

Python爬虫入门心得分享

D0126_的博客

03-07

1249

URL那么多，如何判断哪些网址已经爬过，哪些没有爬过，简单点就是是使用字典结构来存储已经爬过的的URL，但是如果碰过海量的URL时，字典占用的内存空间非常大，此时你需要考虑使用 Bloom Filter（布隆过滤器），用一个线程逐个地爬取数据，效率低得可怜，如果提高爬虫效率，是使用多线程，多进程还是协程，还是分布式操作。网上的爬虫教程多如牛毛，原理大体相同，只不过是换个不同的网站进行爬取，你可以跟着网上的教程学习模拟登录一个网站，模拟打卡之类的，爬个豆瓣的电影、书籍之类的。一般分为传统爬虫和聚焦爬虫。

Python爬虫初步个人学习及心得