学习笔记,仅供参考,有错必究
面向高维数据的聚类算法研究
摘要
随着信息技术的发展,数据的维度在不断增加,传统的聚类算法将面临以下挑战和问题:
- 高维数据包含大量冗余的、不相干的信息,数据之间的差异性可能是由部分特征子集导致的,直接对高维数据进行聚类,会降低算法的性能;
- 高维数据通常存在于多个低维子空间中,传统的距离度量方式不再适用于高维数据;
- 传统的聚类算法本身就存在稳定性较差的问题,对于高维数据,更是难以满足高稳定性的需求.
因此,研究面向高维数据的聚类算法是一项非常有意义并且有挑战的课题。近年来,学者们主要从特征选择、子空间聚类、聚类集成三个方面开展了高维数据聚类算法的研究,提出了许多有效的聚类算法,但仍存在以下问题:
- 对特征之间的相关性利用不充分;
- 忽略了噪声以及表达矩阵的结构特性对子空间聚类的影响;
- 忽略了初始聚类结果所包含子类之间的结构信息和判别性信息.
针对上述问题,本文从四个方面开展了高维数据聚类算法