本博客运行环境为Jupyter Notebook、Python3。使用的数据集是鸢尾花数据集(Iris)。主要叙述的是数据可视化。
IRIS数据集以鸢尾花的特征作为数据来源,数据集包含150个数据集,有4维,分为3 类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中常用的测试集、训练集。
读取数据包括sklearn库引入和读取.csv文件保存的数据集。
显示数据包括显示具体数据、查看整体数据信息、描述性统计。
数据可视化包括散点图、直方图、KDE图、箱线图。
目录读取数据显示数据数据可视化
读取数据
从sklearn库中读取:(我使用的是该种办法)
,因为文件运行起来总缺少一
在数据分析和机器学习领域,数据可视化是一个至关重要的环节,它能帮助我们理解数据的分布、关系和模式。本文将详细探讨如何使用Python的鸢尾花数据集(Iris)进行数据可视化,包括读取数据、显示数据、描述性统计以及各种图表的绘制。
**1. 读取数据**
鸢尾花数据集是数据科学中非常经典的一个例子,它包含了150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)和一个类别标签(鸢尾花的种类)。在Python中,我们可以使用`sklearn`库来加载这个数据集:
```python
from sklearn.datasets import load_iris
iris_datas = load_iris()
```
如果你的数据集存储在CSV文件中,可以使用`pandas`库读取:
```python
import pandas as pd
Iris = pd.read_csv('Iris.csv', header=None)
```
**2. 显示数据**
显示数据通常包括查看数据的基本信息,如数据框的第一行或最后几行,以及数据的统计摘要:
```python
print(iris_datas.data) # 数据集中的数据
print(iris_datas.target_names) # 鸢尾花的种类
print(Iris.head()) # CSV文件数据的前几行
```
**3. 描述性统计**
使用`pandas`的`describe()`函数可以获取数据的中心趋势、分散度等统计信息:
```python
Iris.describe()
```
**4. 数据可视化**
数据可视化可以帮助我们直观地理解数据特性,常见的图表包括:
- **散点图**:用于展示两个特征之间的关系,例如:
```python
import matplotlib.pyplot as plt
plt.scatter(iris.datas[:, 0], iris.datas[:, 1])
plt.xlabel('花萼长度')
plt.ylabel('花萼宽度')
plt.show()
```
- **直方图**:展示单个特征的分布情况:
```python
plt.hist(iris.datas[:, 0], bins=10, edgecolor='black')
plt.xlabel('花萼长度')
plt.ylabel('频数')
plt.show()
```
- **KDE图(Kernel Density Estimation图)**:用于连续变量的密度估计,显示特征的概率分布:
```python
from scipy.stats import kde
g = kde.gaussian_kde(iris.datas[:, 0])
x = np.linspace(min(iris.datas[:, 0]), max(iris.datas[:, 0]), 100)
plt.plot(x, g(x))
plt.xlabel('花萼长度')
plt.ylabel('密度')
plt.show()
```
- **箱线图**:显示数据的四分位数,有助于识别异常值:
```python
plt.boxplot(iris.datas, labels=iris.target_names)
plt.ylabel('特征')
plt.title('鸢尾花数据集的箱线图')
plt.show()
```
通过这些图表,我们可以快速了解数据的分布特征,为进一步的分析和建模提供依据。
总结来说,Python的鸢尾花数据集提供了丰富的示例,让我们能够实践数据加载、数据处理和数据可视化。通过运用`pandas`、`matplotlib`和`scikit-learn`等库,我们可以有效地探索数据,为后续的机器学习任务打下坚实的基础。对于初学者来说,这是一个很好的起点,而对于经验丰富的数据科学家来说,这也是一个重温基础和尝试新方法的好资源。