
python爬虫
TUJC
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
0、爬虫
一、http 当⽤户在地址输⼊了⽹址 发送⽹络请求的过程是什么 1、http的请求⽅式 (1)get请求 优点: ⽐较便捷 缺点:不安全;明⽂;参数的⻓度有限制 (2)post请求 ⽐较安全;数据整体没有限制;上传⽂件 (3)put(不完全的) (4)delete(删除⼀些信息) 2、head(请求头) 发送⽹络请求(需要带⼀定的数据给服务器不带数据也可以) 请求头⾥⾯request...翻译 2019-03-11 15:10:04 · 373 阅读 · 0 评论 -
0.1、前端
翻译 2019-03-11 20:37:36 · 166 阅读 · 0 评论 -
0.2、爬虫的简介
爬⾍⼊⻔: 使⽤代码模拟⽤户 批量的发送⽹络请求 批量的获取数据 1、爬⾍的价值: (1)买卖数据(⾼端的领域价格特别贵 (2)数据分析:出分析报告 (3)流量 (4)指数阿⾥指数,百度指数 2、合法性:灰⾊产业 政府没有法律规定爬⾍是违法的,也没有法律规定爬⾍是合法的 公司概念:公司让你爬数据库(窃取商业机密)责任在公司 3、爬⾍可以爬取所有东⻄? (不是)爬⾍只能爬取⽤户能访...转载 2019-03-15 15:23:59 · 147 阅读 · 0 评论 -
1.1 、数据请求—urlib库
urlib库 Python 内置的 HTTP 请求库,不需要额外安装 1、request模块,基本的 HTTP 请求模块,模拟发送请求, 2、error 模块,异常处理模块,捕获异常,进行重试或其他操作保证程序不会意外终止。 3、parse 模块,工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。 4、robotparser模块,识别网站的 robots.txt 文件,...原创 2019-08-05 21:18:53 · 813 阅读 · 0 评论 -
1.2、数据请求—requests库
目录 1、GET请求 2、POST请求 3、代理设置 4、SSL 证书验证 5、Cookies import requests class RequestSpider(object): def __init__(self): url = 'https://www.baidu.com' headers = { ...原创 2019-08-05 22:16:55 · 989 阅读 · 0 评论 -
2.2、数据解析—XPath
一、语法 import re import requests # 安装支持 解析html和XML的解析库 lxml # pip install lxml from lxml import etree url = 'http://news.baidu.com/' headers = { "User-Agent": 'Mozilla/5.0 (Macintosh; Intel M...原创 2019-08-12 15:36:29 · 211 阅读 · 0 评论 -
2.3、数据解析—bs4
一、语法 # pip install beautifulsoup4 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="titl...原创 2019-08-12 16:48:33 · 279 阅读 · 0 评论 -
2.4、 爬虫案例1
遍历爬取http://www.allitebooks.org/网站中前十页的书名、作者、简介、图片url,生成json文件 目录 一、数据请求 1、单页请求 2、翻页请求 二、数据解析 1、解析书名字 2、解析书作者 3、解析书简介 4、解析书图片url 三、数据存储 四、完整代码 一、数据请求 1、单页请求 import requests url = 'h...原创 2019-08-14 16:11:48 · 364 阅读 · 0 评论 -
3.1、数据存储—json和csv
一、JSON JSON(JavaScriptObject Notation, JS 对象简谱) 是一种轻量级的数据交换格式 在 JS 语言中,一切都是对象。因此,任何支持的类型都可以通过 JSON 来表示,例如字符串、数字、对象、数组等。 但是对象和数组是比较特殊且常用的两种类型: 对象,表示为键值对 数据,由逗号分隔 花括号,保存对象 方括号,保存数组...原创 2019-08-14 11:42:24 · 977 阅读 · 0 评论 -
3.3、数据存储—Redis数据库
Redis教程:https://www.runoob.com/redis/redis-tutorial.html Redis 命令参考:http://redisdoc.com/# 目录 简介 一、数据库操作 1 、切换数据库 select 1 2、删除当前库 flushdb 3、删除所有库 flushall 二、数据操作 0、键命令 (1)查找键 keys pattern (...原创 2019-08-19 17:34:12 · 1118 阅读 · 0 评论 -
3.2、数据存储—MongoDB数据库
MongoDB 教程 https://www.runoob.com/mongodb/mongodb-tutorial.html 目录 简介 一、数据库(database) 1、查看数据库show dbs 2、创建数据库use db_name 3、删除数据库db.dropDatabase() 4、备份数据库mongodump 5、恢复数据库 mongorestore ...原创 2019-08-16 21:50:56 · 1639 阅读 · 0 评论