
爬虫
绿头龙
don't think,feel it
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫入门笔记--知乎发现(爬取失败了)
import urllib.requestimport urllib.parse#401 Unauthorized客户试图未经授权访问受密码保护的页面 所以爬取失败了url = 'https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=5ad2f1226d859b5abf6d7d214140e78f&de...原创 2019-06-17 20:22:31 · 1850 阅读 · 0 评论 -
python爬虫入门笔记--ajax-post(查询全国的肯德基门店)
import urllib.requestimport urllib.parseurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'city = input('请输入你要查找的城市:')Index = input('请输入你要查找第几页:')Size = input('请输入你要查询多少个:')#p...原创 2019-06-17 20:20:18 · 481 阅读 · 0 评论 -
python爬虫入门笔记--http和https
2、http协议 什么是http协议?双方规定的传输形式 http协议:网站原理 应用层的协议 ftp(21) 端口号:http(80)、https(443) ssh(22) mysql(3306) https://www.cnblogs.com/wqhwe/p/5407468.html> 超...原创 2019-05-20 20:25:49 · 225 阅读 · 0 评论 -
python爬虫入门笔记--post百度翻译
import urllib.requestimport urllib.parse#创建url#地址一定要写对url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule 'form_data = { 'action': 'FY_BY_REALTlME', 'bv': ...原创 2019-05-20 20:23:43 · 516 阅读 · 0 评论 -
python爬虫入门笔记--爬虫简介
、爬虫:写程序,然后去互联网上抓取数据的过程互联网:网,有好多a连接组成,王的节点就是每一个a链接,url(统一资源定位符)通用爬虫,聚焦爬虫通用爬虫:百度 360 搜狐 bing 。。。原理:(1)抓取网页(2) 采集数据(3)数据处理...原创 2019-05-20 20:24:44 · 189 阅读 · 0 评论 -
python爬虫入门笔记--爬取垃圾分类查询【还有待改善】
import urllib.requestimport urllib.parseimport re#后期应对网页内容用正则表达式进行提取word = input('输入你想搜索的内容:')# word = '啤酒瓶'url = 'http://lajifenleiapp.com/sk/'#参数写为一个字典(相当于数组)data = { 'sk':word,}hea...原创 2019-07-04 16:09:05 · 1351 阅读 · 0 评论