基于行列式点过程的聚类集成选择与生成式直方图模型
1. 基于行列式点过程的聚类集成选择
在聚类集成选择中,传统基于排序的方法在筛选基础聚类时存在困难,可能会遗漏重要的多样化聚类。因此,我们引入基于行列式点过程(DPP)采样的聚类集成选择方法。
1.1 构建L矩阵
内积 $\varphi_i^T \cdot \varphi_j \in [-1, +1]$ 表示元素 $i$ 和 $j$ 之间的相似度。$L_{ij}$ 由元素对的质量和多样性组成,可表示为 $L = {L_{ij} = q_i \cdot s_{ij} \cdot q_j | 1 \leq i \leq M, 1 \leq j \leq M }$。
- 基础聚类的质量评估 :采用内部有效性指标来评估基础聚类的质量,具体选用了紧凑性指数(CPI)、戴维斯 - 布尔丁指数(DBI)、卡林斯基 - 哈拉巴斯指数(CHI)和I指数。为使所有指标与聚类质量呈正相关,对DBI和CPI进行变换:$DBI = \exp(-DBI)$,$CPI = \exp(-CPI)$,并使用最小 - 最大归一化将所有内部指标的值映射到 $[0,1]$。基础聚类 $c_i$ 的质量评估 $q_i$ 可通过对四个内部有效性指标的值求平均得到:$q_i = q(c_i) = \frac{CPI(c_i) + DBI(c_i) + I(c_i) + CHI(c_i)}{4}$。
- 基础聚类的多样性评估 :采用归一化互信息(NMI)来衡量两个基础聚类 $c_i$ 和 $c_j$ 之间的相似度,即 $s_{i,j} = s(c_i