python爬虫__简单小案例

手把手教你,Python爬取招聘信息。一学就会,一写就废。

零基础的同学也能上手的,简单详细的python爬虫教学,也是经验的分享。

话不多说我们直接进入主题。

本次用到的python爬虫第三方库。

  1. requests:不是内置的,所以需要手动安装 => pip install requests
  2. re (正则表达式):用于requests爬取数据后进行解析,也是需要手动安装,==> pip install re 。
  3. Json :是一种轻量级的数据交换格式,易于人阅读和编写。

注意:(1)、因返回的数据较多,这里就不给予展示了。

           (2)、代码是一段一段的,进行一步一步的讲解,最后会附上所有的源码。


一、爬虫数据思路

1.进入网址

        网站连接可在代码中的 url 复制 ,因为某些不可说的原因。

       输入python ,查找python招聘信息。

2.查看需要的数据在源码中的位置,判断是否为动态网页。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAbTBfNjU4MzM1NzU=,size_20,color_FFFFFF,t_70,g_se,x_16

 在源码里面进行搜索“python开发工程师”,找到其对应的位置。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAbTBfNjU4MzM1NzU=,size_20,color_FFFFFF,t_70,g_se,x_16

 在body标签中没有对应的数据,而在script中发现了数据所在。此时说明此网页是一个动态网页。可以利用re(正则表达式)来解析所需要数据。

二、代码

        1.首先导入 requests 和 re模块

                import requests

                import re

                import json

        2.利用 requests 进行数据请求,此段代码有响应数据,这可以用此段代码。如果无数据或者乱码则用下面的代码。

import requests
import re
import json

#长类型字符串可以用 () 进行连接
'''
https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
'''

url = ('https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?'
   'lang=c&postchannel=0000&workyear=99&cotype=99&
degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=')

resp = requests.get(url).text  # .text 是属性,让返回的数据为文本格式 

print(resp) 

'''
    如果有数据响应,并且和源码一样说明请求没问题,如果请求的是一串乱码或者没有数据。
    可以加上 请求头(User-Agent) 和 Cookie
'''

 Cookie的位置

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5rqQ5rqQ55qE5L2p5aWH,size_20,color_FFFFFF,t_70,g_se,x_16

 请求头(User-Agent)的位置

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5rqQ5rqQ55qE5L2p5aWH,size_20,color_FFFFFF,t_70,g_se,x_16

url = ('https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?'
       'lang=c&postchannel=0000&workyear=99&cotype=99&degre
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源源佩奇

一起进步,提高自己。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值