小瓜讲数据分析——使用箱型图判定异常值

本文详细介绍了箱型图的绘制步骤及如何利用箱型图判定数据集中的异常值。通过实例演示了计算四分位数、确定上下边界,并判断数据点是否为异常值的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

箱型图的预备知识

统计学中常用五数概括法来总结数据样本,分别是:

  1. 最小值
  2. 第一四分位数(下四分位)
  3. 第二四分位数(中位数)
  4. 第三四分位数(上四分位)
  5. 最大值

箱型图也同样用到这些概念(详见《商务与经济统计》)。典型的箱型图(横版)如下

箱型图
  图1 箱型图示意(引用《商务与经济统计》p108 figure 3.4)

在绘制箱型图时将第一四分位Q1作为箱底,第三四分位Q3作为箱盖,可以绘制中间的箱(中位数一般作为标记画上)。
四分位间距IQR = Q3-Q1,上界限 = Q3 + 1.5IQR,下界限 = Q1-1.5IQR。如图所示。

但是在一般使用时,见到的箱型图是这样的:
箱型图实用
     图2 箱型图示意(引用箱形图百度百科)

显然上边缘到上四分位与下边缘到下四分位的间距是不一样的。
实际绘制箱型图按以下步骤:

  1. 计算下四分位数、中位数、上四分位数
  2. 计算上边界、下边界
  3. 判断异常值
  4. 在集合中除去异常值去最大值、最小值,取作上边缘、下边缘
  5. 判断下四分位数与下边缘的大小,如果下四分位数小于下边缘,取下四分位为箱底,否则以下边缘为箱底
  6. 判断上四分位数与上边缘的大小,如果上四分位数大于上边缘,取上四分位为箱盖,否则以上边缘为箱盖
例子

data = [185, 195, 200, 201, 210, 223, 750, 1000],绘制样本的箱型图。
计算(8+1)/4 = 2.25,(8+1)×2/4 =4.5,(8+1)×3/4 = 6.75
所以Q1 = 195×0.25+200×0.25 = 198.75
  Q2 = 201×0.5+210×0.5 = 205.5
  Q3 = 223×0.75+750×0.25 = 354.75
上边界 = Q3 + 1.5×IQR = 354.75+1.5×(354.75-205.5)=578.625
下边界 = Q1 - 1.5×IQR = 1.5-1.5×(354.75-205.5)=-25.125
判定750,1000在[-25.125,578.625]以外,所以为异常值
上边缘 = 223 < Q3
下边缘 = 185 < Q1
所以上边缘取Q3,下边缘取185
绘制箱型图如下
在这里插入图片描述

文章导引列表:
机器学习

  1. 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
  2. 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
  3. 小瓜讲机器学习——分类算法(三)朴素贝叶斯法(naive Bayes)
  4. 待续

数据分析

  1. 小呆学数据分析——使用pandas中的merge函数进行数据集合并
  2. 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
  3. 小呆学数据分析——pandas中的层次化索引
  4. 小呆学数据分析——使用pandas的pivot进行数据重塑
  5. 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
  6. 小呆学数据分析——缺失值处理(一)
  7. 小呆学数据分析——异常值判定与处理(一)
  8. 小瓜讲数据分析——数据清洗

数据可视化

  1. 小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
  2. 小瓜讲matplotlib高级篇——坐标轴设置(坐标轴居中、坐标轴箭头、刻度设置、标识设置)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力的骆驼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值