一、环境搭建
数据分析最常见的环境是Anaconda+Jupyter notebook
二、导入包
2.1数据处理包导入
import numpy as np
import pandas as pd
注:numpy是Numerical Python的简称,是一个科学计算的包,可用来矩阵运算,处理线性代数的常见问题。
pandas是panel data和data analysis的组合词,原来是用来处理计量经济学面板数据的工具,可以用来数据对齐、切割、取片、查重、去空等一系列操作。
2.2画图包导入
import matplotlib.pyplot as plt
import missingno as msno
import seaborn as sns
sns.set()
sns.set_style('whitegrid', {'font.sans-serif':['simhei', 'Arial']})
注:matplotlib是常见的绘制图表的工具,seaborn是它的加强版,missingno是缺失值可视化处理的工具,sns.set()设置画图空间为 Seaborn 默认风格。后面的代码为处理中文字体。
2.3日期处理包导入
import calendar
from datetime import datetime
2.4jupyter notebook绘图设置
%matplotlib inline
%config InlineBackend.figure_format="retina"
注:%matplotlib inline是jupyter notebook里的命令,意思是将那些用matplotlib绘制的图显示在页面里而不是弹出一个窗口。
在分辨率较高的屏幕(例如 Retina 显示屏)上,notebook 中的默认图像可能会显得模糊,可用%config InlineBackend.figure_format="retina"来呈现分辨率较高的图片。
三、读取数据
data = pd.read_csv(r"D:\0工作\数据集\train_users_2.csv ")
data = pd.read_excel(r" D:\0工作\excel\6.xlsx ")
注:读取csv格式选第一种,读取excel表选第二种,“”内填文件所在位置。Excel只能存储十万多行数据,而csv(逗号分隔值文件格式)则能存储上亿行数据,所以数据分析中多以csv格式保存数据。
文件地址在文件的属性的对象名称中。
四、数据预览
1.数据集大小
Data.shape #输出列和行
2.查看随便几行或前几行或后几行
data.sample(5)
data.head(5)
data.tail(5)
3.查看数据类型
data.dtypes #会输出字段和字段类型
4.查看数据的数量、无重复值、平均值、最小值、最大值等
data.describe()
data. describe(include='object')
5.查看字段名、类型、空值数为多少
data.info()
五、数据处理
在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等。
1.把需要的字段挑选出来。
data.columns #看一下数据集的所有字段
data.iloc[50] #随便挑一行看看数据的大致情况,以决定取舍哪些字段