一、什么是聚类
Clustering (聚类)是常见的unsupervised learning (无监督学习)方法。
聚类的目的就是将大量数据中具有”相似”特征的数据或样本划分到同一个类别中。
聚类模型建立在无类别标记的数据上,需要实现的目标只是把相似的样本聚到一起,即只是利用样本数据本身的分布规律。
聚类模型会根据数据自身间的”距离”或”相似度”将他们划分成若干组,划分的基本原则就是使组内样本间距离最小化而组间距离最大化。
常用的聚类算法如下:
二、kmeans算法基本原理
kmeans算法又称k均值算法,是最常用的聚类算法之一,它是基于点与点之间距离的相似度来计算最佳类别归属的方法,需要我们预先确定好聚类的类别数量