一、引言
在数据分析和统计学中,箱形图(也称箱线图)是一种直观且有效的可视化工具,用于展示数据的分布特征,包括中位数、四分位数、异常值等关键统计信息。Python 的 matplotlib 库提供了强大的功能,使我们能够轻松绘制各种类型的箱形图,以满足不同的数据分析和展示需求。本文将通过实例代码,详细介绍如何使用 matplotlib 绘制不同种类的箱形图。
二、基本概念
箱形图是一种用来展示一组数据分布情况的统计图表。它通过五个关键的统计量来描述数据:最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值。此外,箱形图还能标识出数据中的异常值。箱形图的主要组成部分包括:
- 箱体 :箱体的上边缘和下边缘分别代表第三四分位数(Q3)和第一四分位数(Q1),箱体中间的线表示数据的中位数(Q2)。
- 须(whiskers) :从箱体延伸出来的线,表示数据的范围。通常,须的长度为 1.5 倍的四分位距(IQR = Q3 - Q1),超出须范围的数据点被视为异常值。
- 异常值(outliers) :位于须范围之外的数据点,通常用独立的点或星号表示。
三、核心功能与特点
- 直观展示数据分布 :能够清晰地呈现数据的集中趋势、离散程度和数据的对称性或偏态。
- 异常值检测 :通过标识异常值,帮助我们快速发现数据中