K-means算法原理、手撕K-means代码

zs1996_

于 2024-10-26 10:00:00 发布

阅读量379

点赞数 8

CC 4.0 BY-SA版权

分类专栏：机器学习笔记文章标签：算法 kmeans 机器学习

本文链接：https://blog.csdn.net/zs16113/article/details/143246119

机器学习笔记专栏收录该内容

6 篇文章

订阅专栏

K-means算法原理

K-means算法步骤

初始化：随机选择k个初始质心
分配：将每个数据点分配到距离最近的质心，形成k个簇。其中距离需要根据数据类型选择欧式距离、余弦相似度等度量方式
更新：用簇内所有点的均值，重新计算每个簇的质心
迭代：重复步骤2和3，直到质心不再发生变化或达到最大迭代次数

K-means优缺点及和其他算法的比较可参考：https://zhuanlan.zhihu.com/p/441168720

利用numpy实现K-means代码

实现代码

import numpy as np

def kmeans(data, k, max_iterations):
    # 随机初始化中心点：
    centers = data[np.random.choice(data.shape[0], k, replace=False)]
    
    for i in range(max_iterations):
        # 使用np.linalg.norm计算,每个样本到每个中心点的欧几里得距离
        # data[:, None]形状为[样本数量, 1, 特征数量]
        # data[:, None] - centers：广播机制，生成形状为 [样本数量, 中心点数量, 特征数量] 的矩阵，计算每个样本与每个中心的差
        distances = np.linalg.norm(data[:, None] - centers, axis=2)
        
        # 更新样本标签，为每个样本分配最近的中心点，计算距离最小的中心的索引
        labels = np.argmin(distances, axis=1)

        # 更新中心
        new_centers = np.array([data[labels == i].mean(axis=0) for i in range(k)])

        # 判断是否收敛，如果所有中心点不再变化，则认为聚类已经收敛，停止迭代
        if np.all(centers == new_centers):
            break
        
        centers = new_centers
    return labels, centers

结果验证

import matplotlib.pyplot as plt

# 生成数据验证
data = np.random.rand(100, 2)
labels, centers = kmeans(data, 3, 100)
plt.scatter(data[:, 0], data[:, 1], c=labels)