如何用python的画几组数据量不同的boxplot(箱线图)

本文介绍如何利用Pandas库处理不同长度的数据,并通过箱形图(boxplot)进行可视化展示。通过生成随机数并将其转换为Series和DataFrame格式,最终实现对数据分布的有效展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用pandas里的dataframe数据结构存放待显示的数据。
dataframe和Series的知识不再讲解,可以看这个博文
如果希望显示的各个数据列表中,数据长度不一致,可以先用Series函数转换为Series数据,再存储到dataframe中,对应index的value值若不存在则为NaN
正常情况下,若各组数据长度一致,则dataframe长这样:
0 1
0 1 5
1 2 6
2 3 7
3 4 8
如果长度不一致,长这样:
0 1
0 1 5
1 2 6
2 3 7
3 NaN 8
后面直接用boxplot就可以
代码原型参考了这篇博客

# -*- coding: utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd


def list_generator(mean, dis, number):  # 封装一下这个函数,用来后面生成数据
    return np.random.normal(mean, dis * dis, number)  # normal分布,输入的参数是均值、标准差以及生成的数量


# 我们生成四组数据用来做实验,数据量分别为70-100
list1 = list_generator(0.8531, 0.0956, 70)
list2 = list_generator(0.8631, 0.0656, 80)
list3 = list_generator(0.8731, 0.1056, 90)
list4 = list_generator(0.8831, 0.0756, 100)
s1 = pd.Series(np.array(list1))
s2 = pd.Series(np.array(list2))
s3 = pd.Series(np.array(list3))
s4 = pd.Series(np.array(list4))
# 把四个list导入到pandas的数据结构中,dataframe
data = pd.DataFrame({"1": s1, "2": s2, "3": s3, "4": s4})
data.boxplot()  # 这里,pandas自己有处理的过程,很方便哦。
plt.ylabel("ylabel")
plt.xlabel("xlabel")  # 我们设置横纵坐标的标题。
plt.show()
好的,在Python中绘制多维数据箱线图可以借助于matplotlib库或seaborn库。箱线图是一种展示分组数据分布的有效工具,它能够显示出一组或多组数据的最小值、第一四分位数(Q1)、中位数(Median/Q2)、第三四分位数(Q3)以及最大值等统计量,并能识别出异常点。 ### 使用Matplotlib绘制箱线图 首先需要导入必要的模块: ```python import matplotlib.pyplot as plt ``` 接下来准备一些示例的数据集(比如二维数组),每一列代表一维度数据: ```python data = [[...], [...]] # 这里应该填入实际的数据 ``` 然后就可以调用`boxplot()`函数来生成箱线图了: ```python plt.boxplot(data) plt.show() ``` 对于更高维度数据,你可以循环处理每个特征并将它们逐一添加到图表上;或者将高维数据转换成适合的形式再一起绘制成一张复杂的箱线图。 ### 使用Seaborn绘制更美观的箱线图 如果你追求更加精美的可视化效果,那么seaborn是一个不错的选择。它可以更容易地创建色彩丰富且样式好看的图形。 安装 seaborn 库: ```bash pip install seaborn ``` 加载并配置环境: ```python import seaborn as sns sns.set_theme(style="whitegrid") # 加载一个内置的数据集作为例子 tips = sns.load_dataset("tips") ``` 现在我们可以根据需求选择不同的方式进行作图了,例如基于某特定分类变量绘制多个箱形图: ```python ax = sns.boxplot(x='day', y='total_bill', data=tips) plt.show() ``` 上述命令会在x轴按照星期几(day),对账单金额(total_bill)做划分后分别绘制对应的箱型图。 如果想同时考虑两个类别因素的影响,还可以加上hue参数: ```python ax = sns.boxplot(x='day', y='total_bill', hue='smoker', data=tips, palette="Set3") plt.legend(title='是否吸烟') plt.show() ``` 这会根据不同属性进一步细分箱体,帮助我们更好地理解不同类型下的差异情况。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值