(PCA与信息)方差和熵

方差和熵

最近在看主成分分析(PCA)时,在对数据进行压缩时,要求方差最大化,目的是保留数据的更多信息。根据信息论,“信息熵”用于量化信息,那么这样看来方差和信息熵都可以用于量化信息,那它们有是什么不同呢?为什么它们可以量化信息呢?

一条信息的信息量与其不确定性有着直接的诶关系。比如说,我们要搞清楚意见非常不确定的事,或者我们一无所知的事情,就需要了解大量的信息。所以,从这个角度来看,可以认为信息量就等于不确定性的多少(uncertainty)[1]

因此,方差和熵都是通过描述不确定性的多少来量化信息。

方差

在统计学和金融学上,大家通常用方差或者标准差用来描述不确定度(风险),这很符合直观的解释:方差越大数据的波动也就越大,不确定性和风险当然也就越大。方差公式:

σ2=1n∑i=1n(xi−μ)2σ2=1n∑i=1n(xi−μ)2

描述了输出值在平均值周围的偏差。方差描述不确定度在某些情况下会失效,因为它要求数据均匀分布并且忽略极端事件的发生。

信息熵是信息论中概念,它是信息不确定性的度量,熵越大表示信息的不确定性越大,信息量越大:

H(x)=−∑pilog(pi)H(x)=−∑pilog⁡(pi)

可以发现公式中没有数据xixi量级大小的表达,也就是说xixi数据的大小不会直接影响熵的大小。熵的大小只是由样本数据概率大小决定。

方差和熵比较</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图灵的猫.

小二,给客官上酒!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值