手把手教你用Python实现K-means聚类算法（附实战案例）

最新推荐文章于 2025-07-17 18:25:34 发布

xiaobin88999

最新推荐文章于 2025-07-17 18:25:34 发布

阅读量651

点赞数 5

CC 4.0 BY-SA版权

文章标签：算法 python kmeans

本文链接：https://blog.csdn.net/xiaobin88999/article/details/147646231

一、聚类分析：数据分组的魔法（✨）

大家有没有遇到过这样的场景：面对一堆杂乱无章的数据，突然想给它分个类？比如说：

电商用户画像划分（剁手党/理性消费者）
城市气候类型划分（热带/温带/寒带）
新闻稿件自动归类（体育/财经/娱乐）

（敲黑板）这时候就该我们的主角——K-means聚类算法登场了！这个算法就像智能的"数据分拣机"，能在不知道数据内在规律的情况下，自动找出相似的数据点组成群组。

二、K-means算法原理拆解（🛠️）

1. 核心四步走（超级重要！！！）

随机选K个初始中心点（就像在教室里随机指定几个班长）
计算距离：每个数据点找最近的中心点（同学们自动站队到最近的班长周围）
重新计算中心点（班长位置调整到队伍的中心位置）
重复2-3步直到稳定（队伍不再变化时结束）

2. 数学公式直击本质

距离计算公式（欧式距离）：
距离 = √[(x₁ - c₁)² + (x₂ - c₂)² + ... + (xn - cn)²]

目标函数（要最小化）：
J = Σ（每个点到所属中心点的距离平方和）

3. 优缺点大揭秘

✅ 优点	❌ 缺点
简单易懂易实现	需要预先指定K值
适合大数据集	对异常值敏感
收敛速度快	可能陷入局部最优

三、Python实战：从零开始写代码（💻）

1. 环境准备

# 必备三剑客
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# 生成模拟数据（300个样本，3个聚类中心）
X, y = make_blobs(n_samples=300, centers=3, random_state=42)

2. 算法核心代码

class KMeans:
    def __init__(self, k=3, max_iter=300):
        self.k = k
        self.max_iter = max_iter
        
    def fit(self, X):
        # 随机初始化中心点（小技巧：从数据点中随机选）
        self.centroids = X[np.random.choice(len(X), self.k, replace=False)]
        
        for _ in range(self.max_iter):
            # 分配标签
            labels = self._assign_clusters(X)
            # 更新中心点
            new_centroids = self._compute_centroids(X, labels)
            
            # 终止条件判断
            if np.allclose(self.centroids, new_centroids):
                break
                
            self.centroids = new_centroids
            
        return self
    
    def _assign_clusters(self, X):
        distances = np.sqrt(((X - self.centroids[:, np.newaxis])**2).sum(axis=2))
        return np.argmin(distances, axis=0)
    
    def _compute_centroids(self, X, labels):
        return np.array([X[labels == i].mean(axis=0) for i in range(self.k)])

3. 可视化展示

def plot_clusters(X, centroids, labels):
    plt.figure(figsize=(10,6))
    plt.scatter(X[:,0], X[:,1], c=labels, cmap='viridis', alpha=0.7)
    plt.scatter(centroids[:,0], centroids[:,1], c='red', s=200, marker='X')
    plt.title("K-means聚类结果展示")
    plt.xlabel("特征1")
    plt.ylabel("特征2")
    plt.show()

# 使用示例
kmeans = KMeans(k=3)
kmeans.fit(X)
plot_clusters(X, kmeans.centroids, kmeans._assign_clusters(X))

四、进阶技巧：避坑指南（⚠️）

1. K值选择玄学

肘部法则：绘制不同K值的损失函数曲线，找"拐点"

# 肘部法则实现
loss = []
for k in range(1, 10):
    model = KMeans(k=k)
    model.fit(X)
    labels = model._assign_clusters(X)
    loss.append(np.sum(np.min(np.sqrt(((X - model.centroids[labels])**2).sum(axis=1)), axis=0)))
    
plt.plot(range(1,10), loss, 'bo-')
plt.xlabel('K值')
plt.ylabel('损失值')

2. 中心点初始化优化

K-means++：改进的初始化方法，减少随机性影响

def initialize_centroids(X, k):
    centroids = [X[np.random.randint(len(X))]]
    for _ in range(k-1):
        dist = np.array([min([np.linalg.norm(x-c)**2 for c in centroids]) for x in X])
        probs = dist / dist.sum()
        centroids.append(X[np.argmax(probs)])
    return np.array(centroids)

3. 特征标准化处理

使用StandardScaler进行标准化

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

五、实战案例：客户细分（🎯）

假设我们有一个电商数据集，包含以下特征：

年消费金额
购买频次
平均客单价
最近一次购买时间

# 数据预处理
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(raw_data)

# 降维可视化
pca = PCA(n_components=2)
pca_data = pca.fit_transform(scaled_data)

# 聚类分析
kmeans = KMeans(k=4)
kmeans.fit(scaled_data)

# 结果解读
segments = {
    0: "高价值活跃客户",
    1: "低频高消费客户", 
    2: "流失风险客户",
    3: "新晋潜力客户"
}

六、常见问题QA（❓）

Q1：算法收敛后中心点还在变化怎么办？

A：大概率是数据有重复点，可以检查数据唯一性，或设置最大迭代次数强制停止

Q2：如何处理分类特征？

A：建议使用K-prototypes算法，或者对分类特征进行适当编码

Q3：怎么评估聚类效果？

A：可以使用轮廓系数（Silhouette Score）

from sklearn.metrics import silhouette_score
score = silhouette_score(X, labels)

七、总结与展望（🚀）

通过今天的实战，我们可以发现：

K-means是入门聚类算法的最佳选择（简单但有效！）
特征工程的质量直接影响聚类效果（数据清洗很重要！）
参数调优需要结合实际业务场景（不要盲目追求数学最优）

未来可以尝试的扩展方向：

与深度学习结合（深度聚类）
处理流式数据（在线K-means）
结合可视化分析（聚类结果动态展示）

（小贴士）最后送大家一句话：聚类分析不是终点，而是探索数据规律的起点！快去用这个算法挖掘你的数据宝藏吧～