聚类分析的概念-CSDN博客

本文链接：https://blog.csdn.net/wh_xia_jun/article/details/149354689

你有没有过这样的经历：衣柜里的衣服堆成一团，找一件 T 恤要翻半天？后来你把衣服分成 “上衣”“裤子”“外套”，瞬间清爽多了 —— 其实这就是 “聚类” 的思路！聚类分析就是给数据 “整理衣柜” 的技术，让相似的数据 “住在一起”，不同的数据 “分开站队”。今天咱们用大白话 + 生活例子，把聚类分析讲明白。

一、聚类：给数据 “分帮派”

什么是聚类？

聚类是一种让数据 “自动抱团” 的技术。它不需要你提前告诉电脑 “谁和谁是一伙的”（这叫 “无监督学习”），电脑会自己观察数据的特点，把长得像的分到一组。

类比：就像老师带一群陌生的学生，不用提前安排，让学生们自己找 “合得来” 的人站成几队 —— 最后会形成几个小团体，这就是 “簇”。

聚类的目标

简单说就是：“自己人越像越好，外人越不像越好”（专业说法：高簇内相似性，低簇间相似性）。

例子：如果把动物数据聚类，最终会形成 “哺乳动物”“鸟类”“鱼类” 这样的簇 —— 同一簇里的动物长得像、习性像，不同簇的差异很大。

聚类能用来干嘛？

电商：把用户分成 “学生党”“上班族”“宝妈”，推送不同商品；
生物：给基因序列分组，找相似的物种；
城市规划：把地块按用途分成 “商业区”“住宅区”“工业区”。

二、K-means：用 “选组长” 的方式分组

K-means 是最常用的聚类算法，步骤简单到像玩游戏，咱们一步一步看：

步骤 1：先定要分几组（选 k 值）

比如你想把 20 个数据分成 3 组，就先指定 k=3。

类比：老师说 “咱们分 3 个小组”，先确定要分几组。

步骤 2：选 “临时组长”（初始质心）

从数据中随便挑 3 个当 “临时组长”（质心）。

例子：从 20 个学生里随便选 3 个人站出来当临时组长。

步骤 3：“找组织”（划分簇）

每个数据都去找离自己最近的组长，形成 3 个小团体。

例子：每个学生看哪个组长离自己最近（比如按身高差距），就站到那个组长身后。

步骤 4：换 “更合适的组长”（更新质心）

每个小团体重新选一个 “最中间” 的人当新组长（比如团体里所有人的身高平均值对应的人）。

例子：第一组学生身高是 160、162、164，新组长就是身高 162 的人。

步骤 5：重复直到稳定

重复 “找组织→换组长”，直到组长不再变化 —— 最终的 3 个小团体就是聚类结果。

动画类比：就像玩 “抢椅子” 游戏，每次调整后大家站的位置越来越合理，直到没人再动。

怎么选 k 值？用 “肘部法”

k 值不能乱选，太少分不细，太多没必要。“肘部法” 帮你找合适的 k：

算不同 k 值对应的 “混乱度”（SSE，数据到组长的平均距离）；
画成曲线，找曲线从陡变缓的 “肘部” 位置 —— 那里的 k 值最合适。

类比：买水果时，袋子太小装不下，太大浪费，找个刚好装下的袋子大小。

K-means 的优缺点

优点：快！处理 10 万个数据也不费劲，适合圆形的 “小团体”；
缺点：如果数据是 “奇怪形状”（比如月牙形），分不好；而且必须提前说分几组。

三、DBSCAN：按 “热闹程度” 分组

K-means 适合圆形团体，但如果遇到 “U 型”“带状” 的数据怎么办？DBSCAN 来帮忙！它不管形状，只看 “密度”—— 人多的地方算一个团体。

核心概念：谁是 “核心人物”？

核心点：周围 “足够近” 的范围内有至少 5 个人（参数 MinPts=5），比如操场上一群人扎堆，中间的人就是核心点；
边界点：在核心点旁边，但自己周围人不够，比如扎堆人群边缘的人；
噪声点：孤零零一个人，离谁都远，比如操场角落单独站着的人。

步骤：自动找团体

先找出所有核心点；
从一个核心点出发，把所有能 “连起来” 的核心点和边界点划成一个团体；
重复直到所有核心点都被分组；
剩下的噪声点不算任何团体。

例子：操场上，从一群人的中心（核心点）开始，把所有能牵手摸到的人划成一组，最后可能形成 2 个扎堆的团体，角落单独的人不算。

DBSCAN 的优点

不用提前说分几组，自动找团体数量；
能识别各种形状（U 型、带状都没问题）；
能揪出 “不合群的噪声”（比如异常数据）。

四、GMM：给每个数据 “算概率”

如果数据又多又复杂，比如既有圆形又有椭圆形的团体，K-means 和 DBSCAN 都有点费劲，这时候 GMM 出场了。

核心思路：每个团体像 “一朵云”

GMM 认为每个簇都是 “一朵云”—— 有中心（均值），有胖瘦（方差），有的云圆，有的云扁。

类比：把数据想象成不同口味的棉花糖，草莓味的棉花糖堆成圆的，巧克力味的堆成扁的，GMM 能算出每个数据更可能属于哪种口味。

和 K-means 的区别：“软划分” vs “硬划分”

K-means：每个数据 “非此即彼”，要么属于 A 组，要么属于 B 组；
GMM：每个数据有 “概率”，比如 60% 像 A 组，40% 像 B 组。

例子：一个人既喜欢打篮球又喜欢踢足球，K-means 会硬把他分到一个组，GMM 会说 “他 60% 像篮球队，40% 像足球队”。

五、怎么评价聚类结果好不好？

就像评价 “分组好不好”，有两个标准：

组内要亲近：同一组的数据要尽可能像（比如同一组学生身高差不多）；
组间要疏远：不同组的数据要尽可能不像（比如篮球队和足球队身高差距大）。

常用指标：

轮廓系数：越接近 1，说明分组越好；
调整兰德指数：如果知道 “正确分组”，用这个看聚类结果和正确答案有多像。

总结：三种算法怎么选？

算法	像什么	适合场景	缺点
K-means	选组长分小组	圆形团体、大数据	形状奇怪的分不好
DBSCAN	按扎堆程度分组	任意形状、有噪声	数据太稀疏时不灵
GMM	算概率分团体	复杂形状、需要概率	计算有点慢