
python--爬虫学习
为比赛而学的一些爬虫基础
@白圭
积沙成塔
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习日志0-使用request请求库基本操作
前言这篇文章主要讲述python爬虫入门第一步骤,使用request请求库获取网站数据一、使用步骤代码如下(示例):#1.导入模块import requests#2.发送请求,获取响应response = requests.get("http://www.baidu.com")print(response)#3.获取响应数据#print(response.encoding)#IOS-8859-1#response.encoding='utf8'#print(response.tex原创 2022-02-02 11:06:05 · 284 阅读 · 0 评论 -
爬虫学习日志1--beautifulsoup对象的创建
前言下面代码创建了一个基本的beautifulsoup对象二、使用步骤代码如下(示例):#1.导入模块from bs4 import BeautifulSoup#2.创建BeautifulSoup对象soup = BeautifulSoup('<html>data<html>','lxml')print(soup)总结代码成功运行,就代表beautifulsoup对象创建的成功。...原创 2022-02-02 16:20:40 · 372 阅读 · 0 评论 -
爬虫学习日志2--beautifulsoup-find函数的使用
前言这篇文章主要讲述如何使用beautifulsoup中的find函数一、使用步骤#根着视频学习的代码,记录分享一下#1.导入模块from bs4 import BeautifulSoup#2.准备文档字符串html='''xxx此处是文本内容'''#3.创建BeautifulSoup对象soup=BeautifulSoup(html,'lxml')#4.查找title标签title=soup.find('title')print(title)#查找a标签a=soup.find(原创 2022-02-02 17:05:22 · 1081 阅读 · 0 评论 -
爬虫学习日志3--获取网页的数据并通过bs4提取
前言这篇文章主要讲述如何通过request获取网页的数据,并且通过bs4提取。一、pandas是什么?#根着视频学习的代码,记录分享一下#1.导入相关模块import requestsfrom bs4 import BeautifulSoup#2.发送请求,获取疫情首页内容response = requests.get('https://www.baidu.com/?tn=02003390_6_hao_pg')home_page=response.content.decode()#pr原创 2022-02-03 01:21:17 · 384 阅读 · 0 评论 -
爬虫学习日志4--正则表达式
前言这篇文章主要讲述正则表达式中基本语句的使用。一、pandas是什么?#根着视频学习的代码,记录分享一下#1.导入正则模块import re#字符匹配rs=re.findall('abc','abcasdsddsadsdsaewrwer')#字符匹配 .号表示匹配除了换行符以外的字符rs=re.findall('a.c','abc ') #okrs=re.findall('a.c','a\nc ') #no#字符匹配 中括号表示bc都可以rs=re.findall('a[bc]原创 2022-02-03 01:23:25 · 82 阅读 · 0 评论 -
爬虫学习日志5--正则表达式中findall的使用
前言这篇文章主要讲述正则表达式中findall函数的使用。一、代码#根着视频学习的代码,记录分享一下#1.导入正则模块import re#1.findall方法,返回匹配的结果列表rs=re.findall('\d+','chuan13zhi24')#print(rs)#2.findall方法中,flag参数的作用rs=re.findall('a.bc','a\nbc') #无法匹配rs=re.findall('a.bc','a\nbc',re.DOTALL) #可以匹配rs=原创 2022-02-03 01:26:42 · 342 阅读 · 0 评论 -
爬虫学习日志6--正则表达式中r原串的使用
前言这篇文章主要讲述正则表达式中r原串的使用。一、代码#根着视频学习的代码,记录分享一下#1.导入正则模块import re#在不使用r原串的时候,遇到转义符怎么做rs=re.findall('a\nbc','a\nbc',)print(rs) #okrs=re.findall('a\\\\nbc','a\\nbc',)print(rs) #ok 匹配一个转义符需要四个反斜杠#r原串在正则中就可以消除转义符带来的影响 r原串无敌rs=re.findall(r'a\\nb原创 2022-02-04 00:04:58 · 293 阅读 · 0 评论 -
爬虫学习日志7--正则表达式提取json字符串
前言这篇文章主要讲述正则表达式中对于json的提取。一、代码#根着视频学习的代码,记录分享一下#1.导入相关模块import requestsimport refrom bs4 import BeautifulSoup#2.发送请求,获取疫情首页内容response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')home_page=response.content.decode()#print(home_page原创 2022-02-04 00:05:06 · 2317 阅读 · 0 评论 -
爬虫学习日志8--json转化为python
前言这篇文章主要讲述json格式对于python的转换一、代码#根着视频学习的代码,记录分享一下import json#1.把JSON字符串,转换为PYTHON数据#1.1准备JSON字符串json_str='''[{"美国":"日本"}]'''#1.2把JSON字符串,转换为PYTHON数据rs = json.loads(json_str)print(rs)print(type(rs)) #clsss 'list' 列表print(type(rs[0])) #字典#2.把J原创 2022-02-04 00:05:12 · 300 阅读 · 0 评论 -
爬虫学习日志9--python转换为json
前言这篇文章主要讲述如何将python格式转换为json格式。一、代码#根着视频学习的代码,记录分享一下import json#1.把python转换为json字符串#1.1python类型数据json_str='''[{}]'''rs=json.loads(json_str) #python#1.2把python转换为json字符串json_str=json.dumps(rs,ensure_ascii=False) #jsonprint(json_str)#2.把python原创 2022-02-04 00:05:23 · 1177 阅读 · 0 评论 -
爬虫学习日志10--获取疫情首页数据并保存完整代码
前言这篇文章主要讲述如何获取疫情首页数据并且保存。一、代码import requestsfrom bs4 import BeautifulSoupimport reimport json#1.发送请求,获取疫情首页response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')home_page=response.content.decode()#2.从疫情首页,提取最近一日各国疫情数据soup = Beautif原创 2022-02-04 00:05:30 · 951 阅读 · 0 评论 -
爬虫学习日志11--获取疫情数据并保存--封装
前言这篇文章主要讲述如何封装疫情爬虫函数,并且获取多日的疫情数据一、代码#跟着视频学习的代码,记录分享一下import requestsfrom bs4 import BeautifulSoupimport reimport jsonclass CoronaVirusSpider(object): def _init_(self): self.home_url='https://ncov.dxy.cn/ncovh5/view/pneumonia'原创 2022-02-05 00:04:06 · 928 阅读 · 0 评论