博客原文链接 http://localhost:4000/posts/2b36786b/
前言:Pandas向Excel表的东西,我们可以通过Pandas来迅速完成数据的处理操作
Series对象
Series像一个加强版字典,一样我们可以通过的索引来访问值,但是Series比字典要强很多,接下来我们通过下文来体验一下
基础操作
定义一个Serise
pd.Serise({"A":1000,"b":999})
- Serise.index 查看索引
- Serise.values 查看值
- 我们还可以通过index参数指定索引,例如
pd.Serise([1000,999],index=['A','B'])
- 数据对齐功能进行补全 s1.add(s2,fill_values=3)
DataFrame对象
DataFrame像一个加强版字典的集合,也就是一个二维表格,像一个Excel表一样.
基础操作
- 定义一个DataFrame
pd.DataFrame({"a":[1,2,3],"b":[2,3,4]})
Out
a b
0 1 2
1 2 3
2 3 4
- df1.index 查看索引
- df1.values 查看值
- df1.columns 查看所有列的名字
- df1.shape 查看形状
- df1.head(5) 查看前5行
- df1.tail(5) 查看后5行
-
索引一列
df1[“列名称”] 或者 df1.列名称 -
索引一行
df1.loc[0] -
索引行列
df1.loc[“行名称”,“列名称”]
df1.iloc[“行索引”,“列索引”] -
索引多行列
df1.loc[“行名称1”:“行名称2”,“列名称1”:“列名称2”]
df1.iloc[“行索引1”:“行索引2”,“列索引1”:“列索引2”] -
删除操作
df1.drop(“列名称”,axis=1)
df1.drop(“行名称”,axis=0)
数据输出
- 读取文件
pd.read_csv(“filename”,nrows=100,usecols=[‘col1’,‘col2’]) - 输出文件
data.to_csv(“输出路径”)
其他操作
- 查看空值
df1.isnull() - 查看某一列空值
df1.列名称.isnull() - 填充空值
df1.fillna(values=0) - pay列使用pay列的均值填充
df.pay.fillna(df.pay.mean()) - 大小写转换
df.pay.str.lower() - 更改数据格式
df.pay.astype(‘int’) - 更改列名称
df.rename(columns={“A”:“A-size”}) - 数据替换
df.city.replace(“sh”,“shanghai”) - 数据排序
df.sort_values(by=[‘age’])
数据统计
- 数据采样,采样后不放回
df.sample(n=3,replace=False) - 计算列的标准差
df[‘price’].std() - 计算两列的协方差
df[‘price1’].cov(df[‘price2’]) - 计算所有列的协方差
df.cov() - 计算两个列的相关性
df[‘price1’].corr(df[‘price2’]) - 计算所有列的相关性
df.corr()