Python基础与大数据应用章末小结(二)

目录

第七章 Python爬虫基础

第八章 Python爬虫框架

第九章 数据分析基础

第十章 pandas数据分析

第十一章 Python可视化与可视化工具


第七章 Python爬虫基础

1、urllib 库是Python 3.7.0内置的HTTP请求库。urllib 库提供了四大模块:urllib.request 请求模块;urllib.parse 解析模块;urllib.error 异常处理模块;urllib.robotparser 解析 robots.txt 文本文件模块。

2、urllib.request 模块提供了一个基础方法urlopen(),通过向指定的URL发出请求来获取数据,返回一个http.client.HTTPResponse 对象的数据。

3、urllib.request 模块提供的 decode() 方法,可将指定编码格式的编码解码成 bytes 对象,并返回解码后的字符串。

4、urllib.parse 模块定义了一个标准接口,这个模块默认分为两个类:URL Parsing(URL网址解析)和 URL Quoting(URL地址引用)。

5、urllib.error 模块定义了由 urllib.request 引发的异常类,URL Error 为基本的异常类。异常处理主要用到两个类:urllib.error.URLError 和 urllib.error.HTTPError。

6、修改浏览器中 headers 的值可以将自己的爬虫脚本伪装成浏览器正常访问,这是常用的反爬虫手段。

7、正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是由普通字符和特殊字符组成的文字模式。

8、Python 通过 re 模块提供对正则表达式的支持。re 模块主要用到的方法有 compile()、match()、search()、findallI()、finditer()、sub()、subn()等。

9、网络爬虫按照系统结构和实现技术大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际上,网络爬虫系统通常是几种爬虫技术相结合实现的。

10、网络爬虫(Web Crawler),又被称为网络蜘蛛,是一种按照一定规则自动抓取网站信息的程序或者脚本。网络爬虫是一个自动提取网页的程序,它从一个或若干初始网页的 URL 开始,先获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抓取新的 URL 放入队列,直到满足系统的一定停止条件。

第八章 Python爬虫框架

1、Scrapy框架由Scrapy引擎、调度器、下载器、爬虫、项目管道、下载器中间件、爬虫中间件、调度中间件等组件完成。

2、Scrapy项目创建后,项目中包含项目配置文件scrapy.cfg、项目文件items.py、定义爬虫中间件和下载器中间件的middlewares.py、项目管道文件pipelines.py、项目设置文件settings.py、放置爬虫的目录spiders等。

3、创建Scrapy项目的命令:scrapy startproject<项目名称>;运行项目的命令:scrapy crawl<项目名称>。

4、命令scrapy shell URL与选择器(Selector)配合使用,可以测试提取数据的XPath 或CSS表达式的正确性。

5、创建Scrapy项目后,需要修改items.py、settings.py、pipelines.py文件,创建爬虫文件.py(这个文件在spiders目录下)。

第九章 数据分析基础

1、numpy 是一个用Python实现的科学计算包,是专门为进行严格的数值处理而设计的。尤其是对于大型多维数据和矩阵,numpy 有一个大型的高级数学函数库来操作这些数组。numpy 提供了许多高级的数值编程工具,多为大型金融公司和核心的科学计算组织使用,具有运算速度快、效率高、节省空间等特点。numpy主要有ndarray和matrix两种类型的数据对象。

2、数组array中的很多函数运算都是元素级的,如+、-、*、/四则运算,都针对array的每个元素进行处理,而matrix则是根据矩阵的定义进行整体处理的。

3、pandas是Python的一个数据分析包,主要有Series和DataFrame两种类型的数据对象。

4、pandas的数据处理功能强大,主要用来完成数据清洗、提取、筛选、汇总和统计。

5、pandas的很多处理要依赖于numpy。

6、numpy matrix必须是二维的,但是numpy array(ndarrays)可以是多维的,matrix 是array的一个小分支,包含于 array,所以 matrix 拥有 array 的所有特性。但是 numpy 里面的数组 array 遵循元素的运算规则,而矩阵 matrix 遵循矩阵运算的规则。

7、numpy 中最重要的对象就是 ndarray 多维数组,它是一组相同类型元素的集合,元素可用从零开始的索引来访问。多维数组 ndarray 中的元素在内存中连续存放并占据同样大小的存储空间。多维数组 ndarray  有以下几个属性:

ndarray.size:数组中全部元素的数量

ndarray.dtype:数组中数据元素的类型

ndarray.itemsize:每个元素占几个字节

ndarray.ndim:数组的维度

ndarray.shape:数组各维度的大小

第十章 pandas数据分析

1、CSV文件是纯文本文件,通常以逗号作为分隔符。pandas通过read_csv()和to_csv()方法进行读写。

2、对于Excel文件,pandas 通过read_Excel()和to_Excel()方法进行读写。

3、pandas与MySQL数据进行交互时,需要通过ORM(Object-Relational Mapping)把关系型数据库的表结构映射到对象上,较为常用的是SQLAlchemy库。安装好SQLAlchemy后,pandas与MySQL的交互过程如下:

(1)创建引擎;

(2)读取数据库的表;

(3)分析并处理数据;

(4)写入数据库;

(5)关闭引擎。

4、pandas具有强大的字符处理功能,定义了很多字符处理函数,需要在不断的使用中熟悉。

5、pandas具有很强的聚合处理能力,能够使用内置的函数或者自定义的函数进行整列(行)的处理,而不需要逐行(列)进行循环处理。

第十一章 Python可视化与可视化工具

1、Python中有很多数据可视化方面的第三方库,如matplotlib、pandas、Seaborn、ggplot、Bokeh、pygal、geoplotlib等。这些库各有特点,应根据实际应用的需要进行选择。

2、pandas库除了具有较强的数据处理功能外,还具有较强的绘图功能,可绘制折线图、柱状图、直方图、散点图等,并能和matplotlib进行很好的对接。

3、matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建各种类型的2D图表和一些基本的3D图表。其子模块pyplot提供了经典的Python编程接口,使用简单,以渐进交互的方式实现数据可视化,对图像元素的控制力强。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椅糖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值