聚类分析的概念

你有没有过这样的经历:衣柜里的衣服堆成一团,找一件 T 恤要翻半天?后来你把衣服分成 “上衣”“裤子”“外套”,瞬间清爽多了 —— 其实这就是 “聚类” 的思路!聚类分析就是给数据 “整理衣柜” 的技术,让相似的数据 “住在一起”,不同的数据 “分开站队”。今天咱们用大白话 + 生活例子,把聚类分析讲明白。

一、聚类:给数据 “分帮派”

什么是聚类?

聚类是一种让数据 “自动抱团” 的技术。它不需要你提前告诉电脑 “谁和谁是一伙的”(这叫 “无监督学习”),电脑会自己观察数据的特点,把长得像的分到一组。

类比:就像老师带一群陌生的学生,不用提前安排,让学生们自己找 “合得来” 的人站成几队 —— 最后会形成几个小团体,这就是 “簇”。

聚类的目标

简单说就是:自己人越像越好,外人越不像越好”(专业说法:高簇内相似性,低簇间相似性)。

例子:如果把动物数据聚类,最终会形成 “哺乳动物”“鸟类”“鱼类” 这样的簇 —— 同一簇里的动物长得像、习性像,不同簇的差异很大。

聚类能用来干嘛?

  1. 电商:把用户分成 “学生党”“上班族”“宝妈”,推送不同商品;
  2. 生物:给基因序列分组,找相似的物种;
  3. 城市规划:把地块按用途分成 “商业区”“住宅区”“工业区”。

二、K-means:用 “选组长” 的方式分组

K-means 是最常用的聚类算法,步骤简单到像玩游戏,咱们一步一步看:

步骤 1:先定要分几组(选 k 值)

比如你想把 20 个数据分成 3 组,就先指定 k=3。

类比:老师说 “咱们分 3 个小组”,先确定要分几组。

步骤 2:选 “临时组长”(初始质心)

从数据中随便挑 3 个当 “临时组长”(质心)。

例子:从 20 个学生里随便选 3 个人站出来当临时组长。

步骤 3:“找组织”(划分簇)

每个数据都去找离自己最近的组长,形成 3 个小团体。

例子:每个学生看哪个组长离自己最近(比如按身高差距),就站到那个组长身后。

步骤 4:换 “更合适的组长”(更新质心)

每个小团体重新选一个 “最中间” 的人当新组长(比如团体里所有人的身高平均值对应的人)。

例子:第一组学生身高是 160、162、164,新组长就是身高 162 的人。

步骤 5:重复直到稳定

重复 “找组织→换组长”,直到组长不再变化 —— 最终的 3 个小团体就是聚类结果。

动画类比:就像玩 “抢椅子” 游戏,每次调整后大家站的位置越来越合理,直到没人再动。

怎么选 k 值?用 “肘部法”

k 值不能乱选,太少分不细,太多没必要。“肘部法” 帮你找合适的 k:

  1. 算不同 k 值对应的 “混乱度”(SSE,数据到组长的平均距离);
  2. 画成曲线,找曲线从陡变缓的 “肘部” 位置 —— 那里的 k 值最合适。

类比:买水果时,袋子太小装不下,太大浪费,找个刚好装下的袋子大小。

K-means 的优缺点

  1. 优点:快!处理 10 万个数据也不费劲,适合圆形的 “小团体”;
  2. 缺点:如果数据是 “奇怪形状”(比如月牙形),分不好;而且必须提前说分几组。

三、DBSCAN:按 “热闹程度” 分组

K-means 适合圆形团体,但如果遇到 “U 型”“带状” 的数据怎么办?DBSCAN 来帮忙!它不管形状,只看 “密度”—— 人多的地方算一个团体。

核心概念:谁是 “核心人物”?

  1. 核心点:周围 “足够近” 的范围内有至少 5 个人(参数 MinPts=5),比如操场上一群人扎堆,中间的人就是核心点;
  2. 边界点:在核心点旁边,但自己周围人不够,比如扎堆人群边缘的人;
  3. 噪声点:孤零零一个人,离谁都远,比如操场角落单独站着的人。

步骤:自动找团体

  1. 先找出所有核心点;
  2. 从一个核心点出发,把所有能 “连起来” 的核心点和边界点划成一个团体;
  3. 重复直到所有核心点都被分组;
  4. 剩下的噪声点不算任何团体。

例子:操场上,从一群人的中心(核心点)开始,把所有能牵手摸到的人划成一组,最后可能形成 2 个扎堆的团体,角落单独的人不算。

DBSCAN 的优点

  1. 不用提前说分几组,自动找团体数量;
  2. 能识别各种形状(U 型、带状都没问题);
  3. 能揪出 “不合群的噪声”(比如异常数据)。

四、GMM:给每个数据 “算概率”

如果数据又多又复杂,比如既有圆形又有椭圆形的团体,K-means 和 DBSCAN 都有点费劲,这时候 GMM 出场了。

核心思路:每个团体像 “一朵云”

GMM 认为每个簇都是 “一朵云”—— 有中心(均值),有胖瘦(方差),有的云圆,有的云扁。

类比:把数据想象成不同口味的棉花糖,草莓味的棉花糖堆成圆的,巧克力味的堆成扁的,GMM 能算出每个数据更可能属于哪种口味。

和 K-means 的区别:“软划分” vs “硬划分”

  1. K-means:每个数据 “非此即彼”,要么属于 A 组,要么属于 B 组;
  2. GMM:每个数据有 “概率”,比如 60% 像 A 组,40% 像 B 组。

例子:一个人既喜欢打篮球又喜欢踢足球,K-means 会硬把他分到一个组,GMM 会说 “他 60% 像篮球队,40% 像足球队”。

五、怎么评价聚类结果好不好?

就像评价 “分组好不好”,有两个标准:

  1. 组内要亲近:同一组的数据要尽可能像(比如同一组学生身高差不多);
  2. 组间要疏远:不同组的数据要尽可能不像(比如篮球队和足球队身高差距大)。

常用指标:

  1. 轮廓系数:越接近 1,说明分组越好;
  2. 调整兰德指数:如果知道 “正确分组”,用这个看聚类结果和正确答案有多像。

总结:三种算法怎么选?

算法

像什么

适合场景

缺点

K-means

选组长分小组

圆形团体、大数据

形状奇怪的分不好

DBSCAN

按扎堆程度分组

任意形状、有噪声

数据太稀疏时不灵

GMM

算概率分团体

复杂形状、需要概率

计算有点慢

聚类就像给数据 “整理房间”,不管用哪种方法,最终目的都是让数据 “各就各位”,方便我们发现隐藏的规律。下次看到一堆乱数据,试试用聚类给它们 “分个家” 吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值