模式识别中的差异表示与相关模型及数据集介绍
立即解锁
发布时间: 2025-08-16 01:26:06 阅读量: 3 订阅数: 6 


模式识别中的差异性表示:理论与应用
### 模式识别中的差异表示与相关模型及数据集介绍
#### 1. 模型选择准则
在比较两个模型时,通常会选择具有最大GIC值的模型。不过,AIC存在一定缺陷,随着样本大小N的增加,它更倾向于选择更复杂的模型,一般会选择比其他模型参数更多的模型。而对于n > 8,由于log n > 2,SIC选择的模型不会比AIC选择的模型更大。
#### 2. 基本数据模型
接下来介绍一些常用于数据建模的基本模型:
- **高斯模型**
- **模型假设**:高斯模型假定数据向量x源自高斯分布,其均值向量为p,协方差矩阵为C。通过对C进行约束,可以构建不同的模型:
- 当C为全协方差矩阵时,得到椭圆高斯模型。
- 当C = diag(a,,) (对角矩阵)时,得到主轴与坐标轴对齐的椭圆高斯模型,仅考虑每个维度的方差。
- 当C = a²I (对角线上值相等的对角矩阵)时,得到球形高斯模型。
- 当C = I (单位矩阵)时,仅使用均值。
- **样本估计**:样本均值和协方差矩阵由其最大似然估计给出。
- **距离度量**:负对数似然或归一化马氏距离表示向量x与估计的高斯模型G之间的距离,即x由G生成的可能性。其公式为:
\[d(x|G) = \frac{1}{2} \log(2\pi) + \frac{1}{2} \log(\det(C)) + \frac{1}{2} (x - \bar{X})^T C^{-1} (x - \bar{X})\]
当C = I时,可得到x与p之间的欧几里得距离平方:
\[d(x, G) = \|x - \bar{X}\|^2\]
若数据不能充分填充空间且使用全协方差矩阵,估计的C可能病态,即det(C)会非常小,log(det(C))趋于负无穷。此时,可使用标准马氏距离:
\[D_{M}(x, G) = (x - \bar{X})^T C^{-1} (x - \bar{X})\]
若数据位于子空间,C可能奇异,通常对C进行正则化,如\(C_{reg} = (1 - \lambda) C + \lambda I\) (\(\lambda > 0\)),或者使用PCA将数据映射到低维空间以保留一定比例的方差。
- **高斯混合模型**
- **模型密度**:假设X = {X₁, X₂, ..., Xₙ}是Rn中N个独立同分布的向量,在高斯混合模型(MoG)中,x独立地来自具有密度的混合:
\[f(x|\Theta) = \sum_{k = 1}^{K} \pi_k \mu_k(x|\mu_k, \Sigma_k)\]
其中\(\Theta = \{\{\pi_k, \mu_k, \Sigma_k\}_{k = 1}^{K}\}\),\(\pi_k\)是混合系数,\(0 < \pi_k < 1\),且\(\sum_{k = 1}^{K} \pi_k = 1\),\(\mu_k(x|\mu_k, \Sigma_k) = N(\mu_k, \Sigma_k)\)。
- **不完全对数似然**:其不完全对数似然为:
\[\ell_{MoG}(\Theta|X) = \sum_{i = 1}^{N} \log \sum_{k = 1}^{K} \pi_k \mu_k(x_i|\mu_k, \Sigma_k)\]
由于难以优化,假设存在隐藏变量y = {y₁, ..., yₙ}来指示每个数据向量由哪个分量密度生成。后验密度\(R_{kj} = p(M_k|x_j)\)(也称为责任)是\(M_k\)生成\(x_j\)的概率。
- **EM算法步骤**:在E - 步,根据贝叶斯规则找到模型\(M_k\)生成点\(x_j\)的责任;在M - 步进行更新。
- **主成分分析(PCA)**
- **降维原理**:PCA是最流行的线性降维技术之一,给定一组向量X = {x₁, x₂, ..., xₙ}在Rn中,PCA找到一个线性m维子空间,将向量正交投影到:
\[y = Q(x - \bar{X})\]
使得保留的方差尽可能大。N x n矩阵Q的行包含PCA投影向量,最大化y方差的m个投影向量(即主轴)是样本协方差矩阵\(C = \frac{1}{N} \sum_{i = 1}^{N} (x_i - \bar{X})(x_i - \bar{X})^T\)对应于最大非零特征值\(\lambda_1, \lambda_2, ..., \lambda_m\)的特征向量\(q_1, q_2, ..., q_m\)。通过求解方程\(Cq_i = \lambda_i q_i\) (i = 1, 2, ..., N)并按特征值排序得到这些向量。
- **重要性质**:
- **不相关表示**:投影数据的协方差是对角的,\(E[QQ^T] = \Lambda\),其中\(\Lambda\)是特征值的对角矩阵。
- **最小二乘重建**:PCA投影最小化平方重建误差。向量x到由参数{p, Q}指定的PCA子空间P的距离是重建误差:
\[d^2(x) = \|(x - \bar{X}) - Q^TQ(x - \bar{X})\|^2\]
- **概率主成分分析(PPCA)**
- **模型扩展**:PPCA是传统PCA在概率设置下的扩展。在传统PCA中,子空间“外部”的维度被简单丢弃,而在PPCA中,这些维度被假定包含独立同分布的高斯噪声并纳入模型。n维观测变量x被认为源自m维潜在变量q(m ≤ n):
\[x = Wq + \mu + \epsilon\]
其中W是未知的n x m矩阵,\(\epsilon \sim N(0, \sigma^2 I)\),潜在变量具有标准正态分布。
- **分布表示**:x的分布可以写为:
\[p(x) = \int p(x|q)p(q)dq = \fra
0
0
复制全文
相关推荐










