1 计算常用统计值
-
加载数据:
-
查看数据字段说明:
-
查看数据行数和列数:
-
对DataFrame进行统计分析,得到计数(count)、平均值(mean)、标准差(std)、最小值(min):
-
可以通过
info()
方法了解不同字段的条目数量,数据类型,是否缺失及内存占用情况
2 常用排序方法
2.1 例:找到小成本高口碑电影
-
nlargest(n, '列名')
:获取某一列取值最大的前n条数据 -
nsmallest(n, '列名')
:获取某一列取值最小的前n条数据
2.2 例:找到每年imdb评分最高的电影
-
sort_values
:根据指定列的值对 DataFrame 进行排序,支持多列排序并可分别指定升序或降序; -
drop_duplicates
:删除 DataFrame 中指定列的重复行,可选择保留第一个或最后一个出现的记录;
2.3 例:提取出每年,每种电影分级中预算少的电影
3 租房数据分析练习
3.1 加载数据&预处理
3.2 查看数据
-
house_data.head()
:查看数据前5行 -
house_data.info()
:查看列数据分布 -
house_data.describe()
:查看列统计指标 -
house_data.shape
:查看数据形状
3.3 简单数据分析
-
找到租金最低,和租金最高的房子
-
找到最近新上的10套房源
-
查看所有更新时间
-
看房人数
-
不同看房人数的房源数量
-
画图:
-
房租价格分布
-
统计最受欢迎的朝向
-
房型在各个区域的分布情况
# 设置正常显示汉字和负号 import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 正常显示汉字 plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
-
最受欢迎的房型
-
不同房型的平均租金
-
热门小区