数据分析的过程如同烧一顿饭,先要数据采集(买菜),然后数据建模(配菜)、数据清洗(洗菜)、数据分析(做菜)、数据可视化(摆盘上菜)。
所以第一步,要采集/选择数据。
一、Python爬取智联招聘岗位信息(附源码)
选择智联招聘,通过Python来进行“BI工程师”的关键数据信息的爬取,这里大家也可以试着爬取自己岗位的关键词,如“数据分析师”、“java开发工程师 ”等。经过F12分析调试,数据是以JSON的形式存储的,可以通过智联招聘提供的接口调用返回。
那么我这边通过Python对智联招聘网站的数据进行解析,爬取了30页数据,并且将岗位名称、公司名称、薪水、所在城市、所属行业、学历要求、工作年限这些关键信息用CSV文件保存下来。
附上完整Python源码:
import requests
import json
import csv
from urllib.parse import urlencode
import time
def saveHtml(file_name,file_content): #保存conten对象为html文件
with open(file_name.replace('/','_')+'.html','wb') as f:
f.write(file_content)
def GetData(url,writer):#解析并将数据保存为CSV文件
response= requests.get(url)
data=response.content
saveHtml('zlzp',data) #保存html文件
jsondata=json.loads(data)
dataList=jsondata['data']['results']
#p