
爬虫
紫楠&馨芷
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫
内容回顾: 第一部分:爬虫相关 1. 谈谈你对http协议的理解? 规范: 1. Http请求收发数据的格式 GET /index/ http1.1/r/nhost:xxx.com/r/n/r/n POST /index/ http1.1/r/nhost:xxx.com/r/n/r/nuser=xxx 2. 短连接(无状态) 一次请求一次响应...原创 2018-11-10 15:13:06 · 304 阅读 · 0 评论 -
爬虫------selenium小结
selenium小结原创 2018-11-16 16:44:15 · 162 阅读 · 0 评论 -
爬虫------selenium的其他方法
selenium的其他方法 1 selenium 处理cookie 通过driver.get_cookies()能够获取所有的cookie 把cookie转化为字典 {cookie[‘name’]: cookie[‘value’] for cookie in driver.get_cookies()} #删除一条cookie driver.delete_cookie("CookieName") ...原创 2018-11-16 16:42:40 · 149 阅读 · 0 评论 -
爬虫-----selenium------元素定位的方法
元素定位的方法 1 selenium的定位操作 定位元素语法: find_element_by_id (返回一个元素) find_elements_by_xpath (返回一个包含元素的列表) find_elements_by_link_text (根据连接文本获取元素列表) find_elements_by_partial_link_text (根据链接包含的文本获取元素列表) find_ele...原创 2018-11-16 16:32:15 · 330 阅读 · 0 评论 -
爬虫------selenium------selenium的基本使用
selenium的基本使用 1 加载网页: selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容 from selenium import webdriver driver = webdriver.PhantomJS() driver.get("http://www.baidu.com/") driver.save_screenshot("长城.png") 2 定位...原创 2018-11-16 16:26:41 · 176 阅读 · 0 评论 -
爬虫-------selenium-------无头浏览器
无头浏览器 1 什么是selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏 2 PhantomJS的介绍 PhantomJS 是一个基于Webkit的“无界面”(headless)浏...原创 2018-11-16 16:24:32 · 653 阅读 · 0 评论 -
爬虫------- 爬虫课程 爬虫基础知识小结
爬虫基础知识小结原创 2018-11-16 16:17:11 · 240 阅读 · 0 评论 -
爬虫-------高性能爬虫小结
高性能爬虫小结原创 2018-11-16 16:15:47 · 195 阅读 · 0 评论 -
爬虫-----请求的发送方法----爬虫基础知识小结
请求的发送方法原创 2018-11-10 15:53:37 · 250 阅读 · 0 评论 -
爬虫------爬虫基础知识小结
爬虫------爬虫基础知识小结原创 2018-11-10 15:49:40 · 254 阅读 · 0 评论 -
爬虫-------爬抖音
douyin.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> </head> <body> &原创 2018-11-10 15:25:47 · 6494 阅读 · 3 评论 -
爬虫-----lagou2.py
import re import requests all_cookie_dict = {} # ##################################### 第一步:访问登录页面 ##################################### r1 = requests.get( url='https://passport.lagou.com/login...原创 2018-11-10 15:20:04 · 230 阅读 · 0 评论 -
爬虫-------lagou1.py
import re import requests all_cookie_dict = {} # 第一步:访问登录页面 #################################### r1 = requests.get( url='https://passport.lagou.com/login/login.html', headers={ 'User...原创 2018-11-10 15:17:56 · 162 阅读 · 0 评论 -
爬虫------github登录
爬虫------github登录 import requests from bs4 import BeautifulSoup r1 = requests.get( url='https://github.com/login' ) s1 = BeautifulSoup(r1.text,'html.parser') token = s1.find(name='input',attrs={'n...原创 2018-11-10 15:15:36 · 288 阅读 · 0 评论 -
爬虫-------Mongodb的介绍和安装
反扒小结 mongodb的安装 1 命令安装 sudo apt-get install -y mongodb https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/ 2 源码安装 mongodb的启动 服务端mongodb的启动 启动方式1: - 启动: sudo service mongod start ...原创 2018-11-16 16:52:02 · 141 阅读 · 0 评论