方差和熵
最近在看主成分分析(PCA)时,在对数据进行压缩时,要求方差最大化,目的是保留数据的更多信息。根据信息论,“信息熵”用于量化信息,那么这样看来方差和信息熵都可以用于量化信息,那它们有是什么不同呢?为什么它们可以量化信息呢?
一条信息的信息量与其不确定性有着直接的诶关系。比如说,我们要搞清楚意见非常不确定的事,或者我们一无所知的事情,就需要了解大量的信息。所以,从这个角度来看,可以认为信息量就等于不确定性的多少(uncertainty)[1]
因此,方差和熵都是通过描述不确定性的多少来量化信息。
方差
在统计学和金融学上,大家通常用方差或者标准差用来描述不确定度(风险),这很符合直观的解释:方差越大数据的波动也就越大,不确定性和风险当然也就越大。方差公式:
σ2=1n∑i=1n(xi−μ)2σ2=1n∑i=1n(xi−μ)2
描述了输出值在平均值周围的偏差。方差描述不确定度在某些情况下会失效,因为它要求数据均匀分布并且忽略极端事件的发生。
熵
信息熵是信息论中概念,它是信息不确定性的度量,熵越大表示信息的不确定性越大,信息量越大:
H(x)=−∑pilog(pi)H(x)=−∑pilog(pi)
可以发现公式中没有数据xixi量级大小的表达,也就是说xixi数据的大小不会直接影响熵的大小。熵的大小只是由样本数据概率大小决定。