学习笔记 | 累积分布函数

本文深入探讨了数据分布的概念,包括直方图、频率、概率质量函数(PMF)及累积分布函数(CDF),并详细解释了百分位数、条件概率等关键概念。通过实例说明,帮助读者理解数据分布的差异及其在实际应用中的意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分布
  • 数据的分布,它描述了各个值出现的频繁程度;
  • 表示分布最常用的方法是直方图;
  • 频数指的是数据集中一个值出现的次数;
概率质量函数PMF
  • 这个函数是值到其概率的映射;
  • 概率是频数除以样本数量;
  • 借助PMF,可以更清晰地看出分布的差异;
  • 归一化:将频数除以样本数量得到概率的过程;
  • 异常值:远离众数的值叫做异常值;
  • 相对风险:两个概率的比值,通常用于衡量两个分布的差异;
  • 条件概率:依赖于某一个条件的概率

01 累积分布函数CDF

01 百分位数

举例:
标准化考试的成绩一般会以两种形式呈现:原始分数、百分等级;

  • 在这里,百分等级就是原始分数不高于你的人在全部考试人数中所占的比例再乘以100;
  • 所以,如果你在90百分位数,那就说你比90%的人成绩好,或者至少不比90%的考试人员差;
02 累积分布函数
  • CDF函数就是值到其在分布中百分等级的映射;
  • CDF是x的函数,其中x是分布中的某个值;

计算给定x的CDF(x),就是计算样本中小于等于x的值的比例;

  • 如果x比样本中最小值还要小,那么CDF(x)就等于0;
  • 如果x比样本中的最大值还要大,那么CDF(x)就是1;
  • CDF是一个阶跃函数,分布中的每个值都有其对应的映射;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值