图致密化与高维数据离群点鲁棒测地线K-means算法
在数据处理和分析领域,图的致密化以及高维数据的聚类是重要的研究方向。本文将介绍图致密化中的谱相似性和优化问题,以及一种针对高维数据的离群点鲁棒测地线K - means算法。
图致密化相关理论
在图致密化的研究中,涉及到一些关键的概念和理论。
谱相似性与优化问题
谱相似性是衡量两个图之间相似程度的重要概念。设$G$和$H$为两个图,$L_G$和$L_H$分别为它们的拉普拉斯矩阵。对于任意实值向量$z$,若满足$z^T L_H z \leq C \cdot z^T L_G z$,则称$G$和$H$是$C$ - 谱相似的,记为$L_H \preceq C \cdot L_G$。谱相似的图具有许多代数性质,例如它们的有效电阻(重新缩放的通勤时间)相似,且这种相似性由$C$界定。
在优化问题中,为了使问题可处理(即时间复杂度为$n$的多项式),将具有组合性质的割度量$\rho$替换为$\mathbb{R}^n$中的范数。引入$(C, \alpha)$谦逊嵌入的概念,定义为满足:
[
\sum_{u,v \in V} \min \left{ | z_u - z_v |^2 - C \cdot \mathbb{E} {(u’,v’) \in E} | z {u’} - z_{v’} |^2, 1 \right} \geq (1 - \alpha)n^2
]
其中,成对之间的距离与边相关的成对距离相比不应全局崩溃。
优化问题$P_2$是一个具有二次约束的线性问题。通过半正定(SPD)松弛,可将其转化为半定规划(SDP)