杂谈
最近在看complex networks,震惊于人家的综述100多页,能有将近300个公式,反观DL,ML,不得不说,DL真香哈哈哈。因为文章太难,公式看不懂,所以来学点统计学知识。
先验知识
在讲相关系数前,可以先再回顾一下协方差,我自己貌似也没很认真的学过协方差。统计学与质量051 - 相关性 - 自变量与因变量 协方差(Covariance)看完这个视频后我又产生了一个新的问题,那就是为啥方差的分母是n-1。
为什么方差的分母是n-1?
为什么样本方差(sample variance)的分母是 n-1?,个人非常喜欢张英锋答主和马同学的回答,这里建议先看张英锋答主的,他的回答真的非常友好,像我这种渣渣都能完全明白,本节是对参考文献的理解而写的。
首先知道方差的公式如下:
σ
2
=
∑
i
=
1
n
(
x
i
−
u
)
2
n
\sigma^2 = \frac{\sum_{i=1}^{n}{(x_i-u)^2}}{n}
σ2=n∑i=1n(xi−u)2注意:这里的
σ
2
\sigma^2
σ2是全体的方差,
u
u
u是全体的均值,
n
n
n是全体变量的数量,而实际情况中不可能所有的样本都进行检验,因此就有了通过随机采样得到的样本方差。
s
2
=
∑
i
=
1
n
(
x
i
−
x
^
)
2
n
−
1
s^2 = \frac{\sum_{i=1}^{n}{(x_i-\hat{x})^2}}{n-1}
s2=n−1∑i=1n(xi−x^)2这里我不会打均值所以用
x
^
\hat{x}
x^来代替了,显然
σ
2
\sigma^2
σ2和
s
2
s^2
s2有显著的差别,一个是客观事实,另一个则是一种估计。
那么对样本采样要满足相互独立的要求,否则会有偏差,而采样得到的
{
x
1
,
x
2
,
x
3
,
.
.
.
,
x
n
}
\{ x_1, x_2, x_3,...,x_n\}
{x1,x2,x3,...,xn}由于
x
^
\hat{x}
x^的存在使得其不是完全独立,已知n-1个就能推出最后一个,这也就是为什么样本方差的分母不是n,也不是n-2或n-3,而是n-1的原因。而这个n-1叫做样本的自由度,不觉得很形象吗!
那么为什么自由度减少后会影响样本方差呢?首先方差是通过计算样本和平均值之间的距离,来描述样本的分散程度,数据之间差异越大,方差越大,数据之间越是趋同,方差越小。由于自由度减少了,导致一个样本受到了其他样本的约束,使其和其他数据趋同,减少了差异性,最终导致样本方差减小。此时的
s
b
i
a
s
e
d
2
=
∑
i
=
1
n
(
x
i
−
x
^
)
2
n
s^2_{biased} = \frac{\sum_{i=1}^{n}{(x_i-\hat{x})^2}}{n}
sbiased2=n∑i=1n(xi−x^)2那么样本偏差变小了,那干脆让分母变小,增大样本方差就行了。样本方差
s
2
s^2
s2公式里的分母n-1,就是这么来的,那个减去的1,就是用来校正
x
^
\hat{x}
x^所带来的偏差,他不代表某一个样本,而是对自由度的补偿,让缩小的样本方差重新变大一点。
方差和协方差
方差和协方差的概念
神同步的协方差(正相关)
唱反调的协方差(负相关)
举个栗子
协方差可以很容易的解决方向问题(正相关还是负相关),但是其由于存在量纲问题,如x,y的单位不统一,那这计算就会出现问题,因此引入本文正主:Pearson, Spearman
相关系数
Pearson correlation coefficient
参考:统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman) 相关系数
这里的
S
x
S_x
Sx和
S
y
S_y
Sy是标准差
取值范围
适用范围
总结:简单来说Pearson correlation coefficient就是将协方差的量纲进行了统一而已.
Spearman correlation coefficient
适用范围
举个栗子
相关强度判定,这里是指绝对值后的数据
总结:Spearman correlation coefficient就是先将样本进行排序,注意这里的排名必须唯一,及不能存在并列第几。得到排名后就是对排名做一次Pearson correlation coefficient即可。
Reference
统计学与质量051 - 相关性 - 自变量与因变量 协方差(Covariance)
为什么样本方差(sample variance)的分母是 n-1?
统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman) 相关系数