旅行者10086-CSDN博客

原创疫情爬虫分析（python)

爬取我国每日疫情数据 import requests import json url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-by-area-code?areaCode=66&t=1637576349190' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C

2021-12-31 17:03:50 1648 6

原创 Hadoop集群配置文件及修改镜像源

core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/export/servers/hadoop-2.7.4/tmp</value> &l

2021-11-19 19:17:10 1519

原创 selenium安装及配置

1.导入selenium包 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium 2.下载chromedriver.exe 网址https://npm.taobao.org/mirrors/chromedriver/ 选择与谷歌浏览器一样的版本，查看谷歌浏览器版本我的谷歌版本为 3.下载后解压得到chromedriver.exe，将他拖到pycharm目录中 4.新建一个py文件，填写代码如下 ...

2021-11-03 20:58:20 6561

原创爬取腾讯招聘的招聘信息（简单）

爬取的是工作名称，发布时间，工作地点，链接，工作内容 f12查看network 搜索网络协议研发工程师内容确实，复制url 请求的内容为字符串，用json.loads处理变成字典，然后就是普普通通的取值代码如下，我把爬取的内容放在了xlsx中爬取结果 numb-1为爬取页数，所以我就是爬取了三页观察前三页的招聘信息的url得出pageIndex位页数代码请私聊 ...

2021-10-22 17:35:14 412 2

原创非常简单的网易云萌新爬虫（python）

写个爬虫总共分几步？3步打开冰箱门.....不是，1.你想要爬取的的url 2.发送请求 3.分析返回的数据我用的是python3.9, 我们首先把框架写好这次使用下载音乐的url为 https://music.163.com/song/media/outer/url?id=(音乐id).mp3 我们去网易云官网搜所一首音乐，我搜的是《...

2021-09-27 21:03:42 1301 5