Python-鸢尾花数据集Iris数据可视化：读取数据、显示数据、描述性统计、散点图、直方图、KDE图、箱线图

1星 23 浏览量 2020-12-20 22:20:07 上传评论 14 收藏 47KB PDF 举报

本博客运行环境为Jupyter Notebook、Python3。使用的数据集是鸢尾花数据集（Iris）。主要叙述的是数据可视化。 IRIS数据集以鸢尾花的特征作为数据来源，数据集包含150个数据集，有4维，分为3 类，每类50个数据，每个数据包含4个属性，是在数据挖掘、数据分类中常用的测试集、训练集。读取数据包括sklearn库引入和读取.csv文件保存的数据集。显示数据包括显示具体数据、查看整体数据信息、描述性统计。数据可视化包括散点图、直方图、KDE图、箱线图。目录读取数据显示数据数据可视化读取数据从sklearn库中读取：（我使用的是该种办法），因为文件运行起来总缺少一在数据分析和机器学习领域，数据可视化是一个至关重要的环节，它能帮助我们理解数据的分布、关系和模式。本文将详细探讨如何使用Python的鸢尾花数据集（Iris）进行数据可视化，包括读取数据、显示数据、描述性统计以及各种图表的绘制。 **1. 读取数据** 鸢尾花数据集是数据科学中非常经典的一个例子，它包含了150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）和一个类别标签（鸢尾花的种类）。在Python中，我们可以使用`sklearn`库来加载这个数据集： ```python from sklearn.datasets import load_iris iris_datas = load_iris() ``` 如果你的数据集存储在CSV文件中，可以使用`pandas`库读取： ```python import pandas as pd Iris = pd.read_csv('Iris.csv', header=None) ``` **2. 显示数据** 显示数据通常包括查看数据的基本信息，如数据框的第一行或最后几行，以及数据的统计摘要： ```python print(iris_datas.data) # 数据集中的数据 print(iris_datas.target_names) # 鸢尾花的种类 print(Iris.head()) # CSV文件数据的前几行 ``` **3. 描述性统计** 使用`pandas`的`describe()`函数可以获取数据的中心趋势、分散度等统计信息： ```python Iris.describe() ``` **4. 数据可视化** 数据可视化可以帮助我们直观地理解数据特性，常见的图表包括： - **散点图**：用于展示两个特征之间的关系，例如： ```python import matplotlib.pyplot as plt plt.scatter(iris.datas[:, 0], iris.datas[:, 1]) plt.xlabel('花萼长度') plt.ylabel('花萼宽度') plt.show() ``` - **直方图**：展示单个特征的分布情况： ```python plt.hist(iris.datas[:, 0], bins=10, edgecolor='black') plt.xlabel('花萼长度') plt.ylabel('频数') plt.show() ``` - **KDE图（Kernel Density Estimation图）**：用于连续变量的密度估计，显示特征的概率分布： ```python from scipy.stats import kde g = kde.gaussian_kde(iris.datas[:, 0]) x = np.linspace(min(iris.datas[:, 0]), max(iris.datas[:, 0]), 100) plt.plot(x, g(x)) plt.xlabel('花萼长度') plt.ylabel('密度') plt.show() ``` - **箱线图**：显示数据的四分位数，有助于识别异常值： ```python plt.boxplot(iris.datas, labels=iris.target_names) plt.ylabel('特征') plt.title('鸢尾花数据集的箱线图') plt.show() ``` 通过这些图表，我们可以快速了解数据的分布特征，为进一步的分析和建模提供依据。总结来说，Python的鸢尾花数据集提供了丰富的示例，让我们能够实践数据加载、数据处理和数据可视化。通过运用`pandas`、`matplotlib`和`scikit-learn`等库，我们可以有效地探索数据，为后续的机器学习任务打下坚实的基础。对于初学者来说，这是一个很好的起点，而对于经验丰富的数据科学家来说，这也是一个重温基础和尝试新方法的好资源。

资源推荐

资源评论