- 博客(5)
- 收藏
- 关注
原创 疫情爬虫分析(python)
爬取我国每日疫情数据 import requests import json url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-by-area-code?areaCode=66&t=1637576349190' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C
2021-12-31 17:03:50
1648
6
原创 Hadoop集群配置文件及修改镜像源
core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/export/servers/hadoop-2.7.4/tmp</value> &l
2021-11-19 19:17:10
1519
原创 selenium安装及配置
1.导入selenium包 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium 2.下载chromedriver.exe 网址https://npm.taobao.org/mirrors/chromedriver/ 选择与谷歌浏览器一样的版本,查看谷歌浏览器版本 我的谷歌版本为 3.下载后解压得到chromedriver.exe,将他拖到pycharm目录中 4.新建一个py文件,填写代码如下 ...
2021-11-03 20:58:20
6561
原创 爬取腾讯招聘的招聘信息(简单)
爬取的是工作名称,发布时间,工作地点,链接,工作内容 f12查看network 搜索网络协议研发工程师 内容确实,复制url 请求的内容为字符串,用json.loads处理变成字典,然后就是普普通通的取值 代码如下,我把爬取的内容放在了xlsx中 爬取结果 numb-1为爬取页数,所以我就是爬取了三页 观察前三页的招聘信息的url得出pageIndex位页数 代码请私聊 ...
2021-10-22 17:35:14
412
2
原创 非常简单的网易云萌新爬虫(python)
写个爬虫总共分几步?3步 打开冰箱门.....不是,1.你想要爬取的的url 2.发送请求 3.分析返回的数据 我用的是python3.9, 我们首先把框架写好 这次使用下载音乐的url为 https://music.163.com/song/media/outer/url?id=(音乐id).mp3 我们去网易云官网搜所一首音乐,我搜的是《...
2021-09-27 21:03:42
1301
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人