引言: 数据处理和可视化是数据分析的重要环节。本文将介绍如何使用numpy、pandas、matplotlib、pyecharts和seaborn等库进行数据清洗和可视化,通过具体的例子演示这些工具的基本功能和使用方法。
一、科学计算与数据预处理
-
1,Numpy基础功能
- 创建数组:例如使用np.array创建一维(np.arange)和二维数组。
- 数组操作:包括数组形状的改变(reshape)、求和、均值等操作。
- 数组保存与读取:如何将数组保存为文件(save)并读取回来(load)进行使用。
举例:通过numpy创建一维数组并进行求和计算。
import numpy as np arr = np.array([1, 2, 3, 4, 5])
print(arr) # 输出:[1 2 3 4 5]
sum_arr = np.sum(arr) print(sum_arr) # 输出:15
-
2,Pandas数据清洗与预处理
- 数据导入与导出:使用pd.read_csv读取CSV文件,to_csv将数据保存为CSV文件。
- 数据预览与摘要统计:通过.head()和.describe()方法查看数据的前几行和统计信息。
- 缺失值处理:如何判断和处理缺失值,例如使用.dropna删除包含缺失值的行或使用.fillna填充缺失值。