Python基础与大数据应用章末小结（二）

最新推荐文章于 2023-04-01 17:18:11 发布

原创最新推荐文章于 2023-04-01 17:18:11 发布 · 2.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #big data #爬虫 #数据分析

Python 专栏收录该内容

8 篇文章

订阅专栏

第七章 Python爬虫基础

1、urllib 库是Python 3.7.0内置的HTTP请求库。urllib 库提供了四大模块：urllib.request 请求模块；urllib.parse 解析模块；urllib.error 异常处理模块；urllib.robotparser 解析 robots.txt 文本文件模块。

2、urllib.request 模块提供了一个基础方法urlopen()，通过向指定的URL发出请求来获取数据，返回一个http.client.HTTPResponse 对象的数据。

3、urllib.request 模块提供的 decode() 方法，可将指定编码格式的编码解码成 bytes 对象，并返回解码后的字符串。

4、urllib.parse 模块定义了一个标准接口，这个模块默认分为两个类：URL Parsing（URL网址解析）和 URL Quoting（URL地址引用）。

5、urllib.error 模块定义了由 urllib.request 引发的异常类，URL Error 为基本的异常类。异常处理主要用到两个类：urllib.error.URLError 和 urllib.error.HTTPError。

6、修改浏览器中 headers 的值可以将自己的爬虫脚本伪装成浏览器正常访问，这是常用的反爬虫手段。

7、正则表达式通常被用来检索、替换那些符合某个模式（规则）的文本。正则表达式是由普通字符和特殊字符组成的文字模式。

8、Python 通过 re 模块提供对正则表达式的支持。re 模块主要用到的方法有 compile()、match()、search()、findallI()、finditer()、sub()、subn()等。

9、网络爬虫按照系统结构和实现技术大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际上，网络爬虫系统通常是几种爬虫技术相结合实现的。

10、网络爬虫（Web Crawler），又被称为网络蜘蛛，是一种按照一定规则自动抓取网站信息的程序或者脚本。网络爬虫是一个自动提取网页的程序，它从一个或若干初始网页的 URL 开始，先获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抓取新的 URL 放入队列，直到满足系统的一定停止条件。

第八章 Python爬虫框架

1、Scrapy框架由Scrapy引擎、调度器、下载器、爬虫、项目管道、下载器中间件、爬虫中间件、调度中间件等组件完成。

2、Scrapy项目创建后，项目中包含项目配置文件scrapy.cfg、项目文件items.py、定义爬虫中间件和下载器中间件的middlewares.py、项目管道文件pipelines.py、项目设置文件settings.py、放置爬虫的目录spiders等。

3、创建Scrapy项目的命令：scrapy startproject<项目名称>；运行项目的命令：scrapy crawl<项目名称>。

4、命令scrapy shell URL与选择器（Selector）配合使用，可以测试提取数据的XPath 或CSS表达式的正确性。

5、创建Scrapy项目后，需要修改items.py、settings.py、pipelines.py文件，创建爬虫文件.py（这个文件在spiders目录下）。

第九章数据分析基础

1、numpy 是一个用Python实现的科学计算包，是专门为进行严格的数值处理而设计的。尤其是对于大型多维数据和矩阵，numpy 有一个大型的高级数学函数库来操作这些数组。numpy 提供了许多高级的数值编程工具，多为大型金融公司和核心的科学计算组织使用，具有运算速度快、效率高、节省空间等特点。numpy主要有ndarray和matrix两种类型的数据对象。

2、数组array中的很多函数运算都是元素级的，如+、-、*、/四则运算，都针对array的每个元素进行处理，而matrix则是根据矩阵的定义进行整体处理的。

3、pandas是Python的一个数据分析包，主要有Series和DataFrame两种类型的数据对象。

4、pandas的数据处理功能强大，主要用来完成数据清洗、提取、筛选、汇总和统计。

5、pandas的很多处理要依赖于numpy。

6、numpy matrix必须是二维的，但是numpy array（ndarrays）可以是多维的，matrix 是array的一个小分支，包含于 array，所以 matrix 拥有 array 的所有特性。但是 numpy 里面的数组 array 遵循元素的运算规则，而矩阵 matrix 遵循矩阵运算的规则。

7、numpy 中最重要的对象就是 ndarray 多维数组，它是一组相同类型元素的集合，元素可用从零开始的索引来访问。多维数组 ndarray 中的元素在内存中连续存放并占据同样大小的存储空间。多维数组 ndarray 有以下几个属性：

ndarray.size：数组中全部元素的数量

ndarray.dtype：数组中数据元素的类型

ndarray.itemsize：每个元素占几个字节

ndarray.ndim：数组的维度

ndarray.shape：数组各维度的大小