【笔记】期望、方差、协方差、协方差矩阵

最新推荐文章于 2025-06-03 20:27:29 发布

原创最新推荐文章于 2025-06-03 20:27:29 发布 · 3.1k 阅读

5 ·

CC 4.0 BY-SA版权

python/机器学习专栏收录该内容

19 篇文章

订阅专栏

博客介绍了期望、方差、协方差及协方差矩阵等数学公式，阐述了Xavier Initialization初始化方法及其局限性，还提及Kaiming初始化。同时介绍了Transformer的Attention机制和SVM模型，包括其线性函数、核函数及缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

容易忽视的使用

1. 公式
2. Xavier Initialization
3. Transformer
4. SVM
参考

1. 公式

1.1 期望

$\mathbb{E}_{x\sim P}[f(x)]=\sum_xP(x)f(x)$
$\mathbb{E}_{x\sim p}[f(x)]=\int p(x)f(x)dx$

1.2 方差

$Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$
当方差很小时，f(x) 的值形成的簇比较接近它们的期望值.

随机变量X，若 $E\{ [X-E(X)]^2\}$ 存在，则称 $E\{ [X-E(X)]^2\}$ 为X的方差，记作 $D(x)=\sigma^2(X)=E\{ [X-E(X)]^2\}$

常数C
$D(CX)=C^2D(X) \tag{1}$ $\tag{2}$
两个随机变量
$\tag{3}$
独立不相关时， $\\ D(XY) = E(X)^2D(Y)+E(Y)^2D(X)+D(X)D(Y) \tag{4}$

1.3 协方差（covariance)

在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：
$Cov(f(x),g(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(x)-\mathbb{E}[g(y)])]$

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。

1.4 协方差矩阵（covariance matrix）

n维随机向量 $x\in \R^n$ 的协方差矩阵（covariance matrix）是一个nxn 的矩阵，并
且满足:
$\Sigma_{i,j}=Cov(x)_{i,j}=Cov(x_i,x_j)$
协方差矩阵的对角元是方差：
$Cov(x_i,x_i)=Var(x_i)$
推论：

如果向量x，各个维度相关性很小的话，协方差矩阵初主对角外，为0
协方差矩阵是非负定矩阵

2. Xavier Initialization

Glorot, Xavier., and Bengio,Yoshua. 2010. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth international conference on artificial intelligence and statistics, 249–256.

正态分布初始化 $\frac{2}{n_{in}+n_{out}})$
均匀分布初始化 $U(-\sqrt{\frac{6}{n_in + n_out}},+\sqrt{\frac{6}{n_in + n_out}})$

对于一个线行模型：
$Y=W_1X_1+W_2X_2+⋯+W_nX_n$
假设W与X独立，则有：
$Var(W_iX_i)=E[X_i]^2Var(W_i)+E[W_i]^2Var(X_i)+Var(W_i)Var(X_i)$
假设输入X为均值为0的高斯分布，则：
$Var(W_iX_i)=Var(W_i)Var(X_i)$
所以，对于线性模型输出Y
$Var(Y)=Var(W_1X_1+W_2X_2+⋯+W-nX_n)=nVar(W_i)Var(X_i)$
那么为了使得输出 Y 和输入X分布相同，则
$Var(W_i)=\frac{1}{n}=\frac{1}{n_{in}}$

同样，反向传播时，输出变为输入
$Var(W_i)=\frac{1}{n_{out}}$
取一个折中的妥协，起码使得in和out维度一样能满足：
$Var(W_i)=\frac{2}{n_{in}+n_{out}}$

关于初始化多说一句：
Xavier Initialization 假设激活函数是线性的，这并不适用于ReLU，sigmoid等非线性激活函数；另一个是激活值关于0对称，这个不适用于sigmoid函数和ReLU函数它们不是关于0对称的。
Kaiming初始化：

正态分布初始化 $\frac{2}{n_{in}})$
均匀分布初始化 $U(-\sqrt{\frac{6}{n_i}},+\sqrt{\frac{6}{n_i}})$

3. Transformer

$Attention(Q,V,K)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

其中，softmax输入 QK的积时做了处理： $\frac{QK^T}{\sqrt{d_k}}$

Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.

Assume that the $q_i$ & $k_i$ are independent random variables with mean 0 and variance 1.
so $Var(qk)=Var(\sum_Nq_ik_i)=NVar(q)Var(k)$ ，and $Var(\frac{qk}{\sqrt{N}})=Var(q)Var(k)$

4. SVM

SVM中的线性函数写为：
$f(\boldsymbol x)=\boldsymbol{w}^T\boldsymbol{x}+b=b+\sum_N\alpha_iy^{(i)}<\boldsymbol{x} , \boldsymbol{x}^{(i)}>$
其中， $\boldsymbol{x}^{(i)}$ 是训练样本，并且其中对预测真正有效的是支持向量。

引入核函数 $k(\boldsymbol{x},\boldsymbol{x}^{(i)})=\phi(\boldsymbol x)\cdot\phi(\boldsymbol {x}^{(i)})$ 则，表示为：
$f(\boldsymbol x)=b+\sum_N\alpha_iy^{(i)}k(\boldsymbol x,\boldsymbol{x}^{(i)})$
以上，核函数作用可以理解为 $\phi(\boldsymbol x)$ 对 x 做非线性变换，使得f(x)关于x是非线性的，但是f(x)关于 $\phi(\boldsymbol x)$ 是线性的。
SVM缺点是，训练样本过大，计算量也变大。