高维数据的离群点鲁棒测地线 K - 均值算法与自适应稀疏贝叶斯回归
高维数据聚类算法的挑战与 ORGK - means 算法
在高维数据聚类领域,传统的基于欧几里得距离的 k - 近邻图存在集中度问题,无法充分捕捉数据点的相似性。同时,DGK - means 算法中的 k - NN 密度估计器容易受到维数灾难的影响,因为在高维空间中,当数据样本数量较少时,计算表示数据远端局部邻域的球体体积在数值上是难以处理的。
为了解决这些问题,提出了离群点鲁棒测地线 K - 均值(ORGK - means)算法。该算法在 DGK - means 算法的基础上进行了改进,具体体现在以下三个方面:
1. 基于 SNN 的距离度量 :采用基于共享最近邻(SNN)相似性的策略来计算成对距离。SNN 相似性通过两个数据点的 k - 近邻列表中共享的点数来衡量。
- SNN 相似度公式:$sim_{SSN_k}(x_i, x_j) = |N_k(x_i) \cap N_k(x_j)|$
- 归一化 SNN 相似度:$sim_{cos_k}(x_i, x_j) = \frac{sim_{SSN_k}(x_i, x_j)}{k}$
- SNN 基于的逆距离:$d_{inv_k}(x_i, x_j) = 1 - sim_{cos_k}(x_i, x_j)$
2. 基于测地线的局部离群因子(gLOF) :用于对数据的离群程度进行排序。gLOF 是在原始局部离群因子(LOF)的基础上,结合了测地线距离,不仅考虑了数据的局部结构,还考虑了全局结构。
- gLOF 得分公式:$gLOF_k(x_i) =