摘 要 多视图聚类需要将多个视图的数据信息进行融合表示,是一项重要且具有挑战的任务.至今仍存在2个难解的问题:1)如何将多视图信息有效融合,减少信息丢失;2)如何将图学习和谱聚类同时进行,避免2步策略带来次优化结果.由于数据本身存在噪声并且各视图数据差异较大,在数据空间进行融合可能会造成重要信息的损失;另外,考虑到不同视图的数据应具有相同的聚类结构.为此提出基于谱结构融合的多视图聚类模型,将各视图信息在谱嵌入阶段实施融合,一方面避免了噪声和各视图数据差异的影响,另一方面融合的部位和方式更自然,减少了融合阶段信息的丢失.另外,该模型利用子空间自表示进行图学习,有效地将图学习和谱聚类整合到统一框架中进行联合优化学习.在5个真实数据集上的实验表明了模型的有效性和优越性.
关键词 多视图聚类;谱嵌入结构;信息融合;子空间自表示;联合优化
聚类算法作为模式识别、计算机视觉和机器学习最关键的技术之一,旨在发现数据内部潜在的分区结构.经过多年研究许多高效的聚类算法已经被提出,如层次聚类的方法、k-means的方法、矩阵分解的方法、谱方法等,然而这些算法都是针对单视图数据的.随着各种采集技术的发展,具有异构表示的多视图数据在学术界和工业界大受欢迎[1].例如,图像可以通过不同描述符来提取特征,如傅里叶形状描述(Fourier shape description, FSD)、RGB值、尺度不变特征变换(scale-invariant feature transform, SIFT)、梯度方向直方图(histogram of oriented gradient, HOG)等[2-3];文学作品被翻译成各国语言进行出版;一则新闻被不同媒体或通过不同