如何判断一维数据集服从何种分布_一维数据不服从概率分布-CSDN博客

本文链接：https://blog.csdn.net/cj151525/article/details/97611446

本文通过计算KL散度，对比了均匀分布模型与高斯分布模型对一组年龄数据的匹配效果，结果显示高斯分布模型更为合适。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

KL散度

KL 散度是一种衡量两个概率分布的匹配程度的指标，两个分布差异越大，KL散度越大。

定义：

其中 p(x) 是真实分布，q(x)是目标分布（建模目标分布），如果两个分布完全匹配，那么

第一组：数据集为采集100个人的年龄，为以下表格所示，我们使用KL散度去研究最符合的分布类型。

age	0	1	2	3	4	5	6	7	8	9	10	总数
count	3	6	7	11	13	18	15	11	7	5	4	100

尝试1：使用均匀分布建立模型

可视化为：黄色的为建立的目标均匀分布模型，与蓝色真实分布的对比。

尝试2：使用高斯分布建立模型

可视化为：（红色虚线是相同 $\sigma$ 与 $\mu$ 拟合的一条正态分布曲线，蓝色条形图为概率密度）：

计算分析：

如何判断真实分布更接近均匀分布还是高斯分布，用肉眼看是很不准确的，用KL散度来衡量真实分布去匹配目标分布所损失的信息量。所以能够将模型量化去比较从而判断出接近哪种分布。

1、计算与均匀分布的KL散度：

import numpy as np
import math
count=np.array([3,6,7,11,13,18,15,11,7,5,4])
count_rate=count/100
balance_rate=1/11
sum=0
for i in range(11):
    sum+=count_rate[i]*math.log(count_rate[i]/balance_rate)
print(sum)

计算结果为：0.12899493763053263

2、计算与高斯分布的KL散度：


def gaosi(x):
    mu=5.03
    sigma=2.4349743325135895
    t1=1/(sigma*math.sqrt(2*math.pi))
    t2=((x-mu)**2)/(2*sigma*sigma)
    return math.exp(-1*t2)*t1

count=np.array([3,6,7,11,13,18,15,11,7,5,4])
count_rate=count/100

sum=0
for i in range(11):
    sum+=count_rate[i]*math.log(count_rate[i]/gaosi(i))
print(sum)