原标题:Python爬取历年招聘数据,告诉你如何成为优秀的数据分析工程师!
2
近年来,数据分析师的需求热度持续攀升,并且随着数据价值的不断挖掘越发得到市场认可。一个喜闻乐见的事实是,数据分析师、数据挖掘工程师、乃至于数据科学家都会有着较高的起薪,是行业公认的香饽饽。
本文中就通过对BOSS直聘、拉勾网数据分析岗的数据进行分析,了解数据分析岗的行业情况,也以此来了解从事数据分析所需要的技能。
网页分析
一开始我的设想是通过爬虫框架Pyspider进行数据获取。
讲道理,Pyspider确实是一款优秀的爬虫框架,我们可以利用它快速方便地实现页面抓取。不过带来便捷性的同时,也有它的局限性,复杂页面不好爬取。在本次针对BOSS直聘和拉勾网的数据爬取中,前者成功使用了Pyspider,但后者却不行,因为拉勾网的数据是Ajax加载的。
也就是说,拉勾网岗位数据请求的网址是不变的,改变的是表单数据,表单数据随着页数改变,请求方式为POST,这里没办法在Pyspider里用循环遍历来获取每一页的数据。也许是我对Pyspider框架了解的不够,还达不到得心应手。所以最后拉勾网的爬取,采用平常的办法,在PyCharm中自行编写程序。
1、获取BOSS直聘索引页信息:
获取BOSS直聘索引页信息,主要是岗位名称、薪资、地点、工作年限、学历要求,公司名称、类型、状态、规模。
本来一开始是想对详情页分析的,还可以获取详情页里的工作内容和工作技能需求。然后由于请求太多,就放弃了。索引页有10页,1页有30个岗位,一个详情页就需要一个请求,算起来一共有300个请求。
我是到了第2页(60个请求),就出现了访问过于频繁的警告。而只获取索引页信息的话,只有10个请求,基本上没什么问题,外加也不想去鼓捣代理IP,所以来点简单的。
2、获取拉勾网索引页信息: