基于概率双聚类的多结构恢复
1. 引言
从含噪声或异常值的数据中提取多个模型,即多结构恢复(Multiple Structure Recovery,MSR),是计算机视觉和模式识别领域中一个重要且具有挑战性的问题。与存在噪声和异常值时的单模型估计不同,MSR旨在应对所谓的伪异常值(即“对感兴趣结构是异常值,但对不同结构是内点”),这将鲁棒估计推向了极限。如果结构的数量事先未知,MSR就变成了一个棘手的模型选择问题,因为必须从所有可能的数据解释中挑选出最合适的一个。
在文献中,MSR问题已通过聚类技术得到了成功解决。一般来说,要分析的数据矩阵在一个维度上记录要聚类的点,在另一个维度上记录特征/描述符。聚类方法根据相似性准则对给定数据矩阵的行(或列)进行分组。例如,最近的J - linkage、T - linkage和RPA等方法,用于表示数据的特征向量是从数据点对通过随机抽样获得的一组临时结构的偏好中得出的。因此,聚类分析通过凝聚或划分方法进行,其中距离衡量偏好之间的(不)一致性。
然而,聚类的性能可能会受到数据矩阵结构的严重影响,例如噪声数据矩阵,或者行仅在数据矩阵的一小部分中表现相似的情况。在聚类难以发挥作用的场景中,可以通过一类称为双聚类的方法来获取信息。
双聚类是对给定数据矩阵的行和列同时进行聚类的一类特定算法。其目标是隔离子矩阵,其中行在受限的列子集中呈现“一致行为”,反之亦然。与聚类相比,双聚类利用局部信息来检索那些在对整行或整列进行分析时无法发现的结构。双聚类问题(也称为协同聚类,与子空间聚类密切相关)在模式识别社区中越来越受到关注,近年来有许多相关论文发表。尽管它最初是在生物场景(即基因表达微阵列数据集的分析)中提出的,但双聚类已广泛应用于从市场