聚类分析:模型、方法与高维数据处理
1. 基于模型的聚类方法
基于模型的聚类方法旨在优化给定数据与某些数学模型之间的拟合度。这类方法通常基于数据由潜在概率分布混合生成的假设。下面介绍三种基于模型的聚类示例。
1.1 期望最大化(Expectation - Maximization)
在实际应用中,每个聚类可以用参数概率分布在数学上表示。整个数据是这些分布的混合,每个单独的分布通常称为分量分布。因此,可以使用k个概率分布的有限混合密度模型对数据进行聚类,其中每个分布代表一个聚类。问题在于估计概率分布的参数,以使数据拟合度最佳。
1.1.1 EM算法步骤
- 初始猜测参数向量 :随机选择k个对象来代表聚类均值或中心(类似于k - 均值划分),并对其他参数进行猜测。
- 迭代细化参数 :
- 期望步骤(Expectation Step) :将每个对象$x_i$以概率$P(x_i \in C_k) = p(C_k|x_i) = \frac{p(C_k)p(x_i|C_k)}{p(x_i)}$分配到聚类$C_k$,其中$p(x_i|C_k) = N(m_k, E_k(x_i))$遵循以均值$m_k$为中心、期望为$E_k$的正态(即高斯)分布。此步骤计算对象$x_i$属于每个聚类的概率,这些概率是对象$x_i$的“期望”聚类成员资格。
- 最大化步骤(Maximization Step) :使用上述概率估计重新估