k-means与GMM优劣对比

最新推荐文章于 2023-04-28 17:50:26 发布

原创最新推荐文章于 2023-04-28 17:50:26 发布 · 664 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kmeans #python #算法

文章对比了KMeans和GMM两种聚类算法。KMeans对数据形状有限制，适合球形分布，而GMM更灵活，能处理任意椭球形状的数据，且支持数据点属于多个簇的概率。示例展示了GMM在处理重叠簇时的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、代码

import numpy as np, matplotlib.pyplot as mp
from sklearn.cluster import KMeans 
from sklearn import datasets 
from sklearn import mixture

np.random.seed(8)  # 设定随机环境
# 创建随机样本
X, _ = datasets.make_blobs(centers=[[0, 0]])
X1 = np.dot(X, [[4, 1], [1, 1]])
X2 = np.dot(X[:50], [[1, 1], [1, -5]]) - 2
X = np.concatenate((X1, X2))
y = [0] * 100 + [1] * 50
# KMeans
kmeans = KMeans(n_clusters=2)
y_kmeans = kmeans.fit(X).predict(X)
# 绘图
for e, labels in enumerate([y, y_kmeans], 1):
    mp.subplot(1, 2, e)
    mp.scatter(X[:, 0], X[:, 1], c=labels, s=40, alpha=0.6)
    mp.xticks(())
    mp.yticks(())
mp.show()
# GMM
gmm=mixture.GaussianMixture(n_components=2,covariance_type='full')
y_gmm=gmm.fit(X).predict(X)
# 绘图
for e, labels in enumerate([y, y_gmm], 1):
    mp.subplot(1, 2, e)
    mp.scatter(X[:, 0], X[:, 1], c=labels, s=40, alpha=0.6)
    mp.xticks(())
    mp.yticks(())
mp.show()

2、效果

GMM比K-Means在处理数据形状方面更灵活（数据集可以是任何椭球形状，而不是限于球形。），所以如图，GMM的聚类效果刚好。同时，GMM使用概率，每个数据点可能会被划分成多个簇，尤其是数据点位于两个重叠的簇中间。

K-Means

GMM

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

雪中送炭行

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

机器学习| 面试题：08、k-means和GMM的区别与联系

Mrrunsen的博客

09-12

832

问题 k-means和GMM（高斯混合模型）都是聚类算法，这两者其实也有一定的相似之处，值得我们探究一下。通过之前的整理，我们对k-means算法已经有了一定的了解，这里就着重补充一下GMM的内容以及它们之间的区别与联系。高斯混合模型（GMM） ● 定义：高斯混合模型是指具有如下形式的概率分布模型： P(x∣θ)=∑k=1Kαkϕ(x∣θk)其中，αk是高斯混合系数，αk≥0 且∑k=1Kαk=1;θk=(μk,σk2);ϕ(x∣θk)是第k个高斯分布模型的概率密度函数，具体形式如下：ϕ(x∣θ

客户分群算法比较：K均值聚类与高斯混合模型（GMM），Python实现

ByteHackerX的博客

09-13

223

然后，我们使用fit()方法对数据进行拟合，并使用predict()方法获取每个数据点所属的簇，使用means_和covariances_属性获取每个簇的参数。然后，我们使用fit()方法对数据进行聚类，并使用labels_属性获取每个数据点所属的簇，使用cluster_centers_属性获取每个簇的质心。K均值聚类是一种基于距离的聚类算法，其目标是将数据集划分为K个不同的簇，使得每个数据点与其所属簇的质心的距离最小化。需要注意的是，K均值聚类和GMM都需要事先指定簇的数量K，并且对初始参数敏感。

3 条评论您还未登录，请先登录后发表或查看评论

k均值聚类算法优缺点_聚类（二）：k-means、GMM与EM算法

weixin_39956451的博客

11-27

3721

上一篇聚类（一）中我们探究了度量相似性的不同方式，了解不同的相似性定义会引导我们得到不同的聚类结果，那么具体是怎么引导的，不同的相似性是怎么发挥作用的呢，这就是我们这里要探究的聚类算法。聚类算法概览其实如我们之前所说的，类或簇的定义与我们期望实现的任务目标有关，聚类算法也一样，聚类算法的不同不仅体现在迭代学习的过程的不同，同样体现在目标类或簇的形式的不同，分别来看的话常见的聚类算法有：从迭代学习的...

GMM和K-means直观对比

java

06-25

3813

GMM和K-means直观对比最后我们比较GMM和K-means两个算法的步骤。 GMM：先计算所有数据对每个分模型的响应度根据响应度计算每个分模型的参数迭代 K-means：先计算所有数据对于K个点的距离，取距离最近的点作为自己所属于的类根据上一步的类别划分更新点的位置（点的位置就可以看做是模型参数）迭代可以看出GMM和K-means还是有很大的相同点的。...

【Python机器学习】K-Means、DBSCAN、GMM三种聚类的对比演示（附源码）

showswoller的博客

12-18

1642

【Python机器学习】K-Means、DBSCAN、GMM三种聚类的对比演示（附源码）

机器学习—Kmeans与GMM

cy925777075的博客

08-16

1443

说到无监督学习，在上一篇文章中，我们提到了PCA，这里我们再简单的说一下聚类算法：Kmeans与混合高斯模型（GMM） K-means K-means算法算是机器学习中最简单的算法之一了，但他却是应用最广泛、最普遍、最经典的聚类算法。原因在于实现简单，可理解性强。先说一下K-means的工作步骤：随机初始化K个类中心。计算所有样本点到K个中心的欧式距离，并根据每个样本点到达聚类中心的最小欧氏距离对样本点进行类别划分。然后更新计算每一类的聚类中心重复2-3步骤直到算法收敛。 K-means算法

SnnGrow文章推荐：KMeans算法与GMM混合高斯聚类

OpenSnn开源社区

04-28

381

K-Means是GMM的特例（硬聚类，基于原型的聚类）。假设多元高斯分布的协方差为0，方差相同。对于给定的样本集，按照样本间的距离，将样本集划分为K个簇。簇内的点尽量紧密连接，而簇间的距离尽量的大。本质上是个组合优化问题，类似于将N个球分配到K个箱子。启发式求解（局部最优解）迭代次数为L，N个d维样本，时间复杂度 O(kLNd)特征归一化，剔除缺失值，异常值1）基于原型的聚类，实现简单收敛速度快。2）聚类效果较优。3）算法的可解释度比较强。4）主要需要调参的参数仅仅是簇数k。

机器学习-python-实验-DBSCAN-BIRCH-对比k-means model & 高斯混合模型

最新发布

12-01

在众多的聚类算法中，DBSCAN、BIRCH以及k-means和高斯混合模型（Gaussian Mixture Model, GMM）是常用的几种方法，各自拥有独特的应用场景和优劣。 DBSCAN（Density-Based Spatial Clustering of Applications with...

【图像分割聚类技术】：K-means与GMM的实用技巧与案例分析

![计算机视觉中的图像分割算法]...# 1. 图像分割聚类技术概述 ## 1.1 图像聚类技术的重要性在计算机视觉和图像处理领域，图像分割是一项基本且关键的任务。图像聚类技术作为图像分

聚类算法详解：从K-Means到BIRCH，八种技术的优劣与实战指南

K-均值聚类（K-Means Clustering）是聚类算法中最基本和广泛使用的一种，其原理是随机选择K个初始质心，将数据点分配到距离最近的质心所在的簇，然后重新计算每个簇的质心，重复这个过程直到质心不再变化或达到最大...

聚类算法揭秘：k-means与其它算法的比较分析

通过分析k-means算法的实现步骤、优化策略及高级实践中的参数调优和应用实例，本文进一步对比分析了k-means与其他聚类算法如层次聚类、密度聚类和高斯混合模型聚类的差异。最后，文章评估了聚类算法的性能，并探讨了...

聚类效果优化秘籍：k-means算法提升客户分群质量

K-means算法作为一种广泛应用于数据挖掘领域的聚类算法，在理解和掌握其理论基础的前提下，对于提高数据处理效率及优化业务决策具有重要的实践价值。本文全面介绍了K-means算法的基础知识、应用场景、实际操作过程中...

K-Means(K均值)、GMM(高斯混合模型)，通俗易懂，先收藏了！

mantch

07-25

9115

文章目录1. 聚类算法都是无监督学习吗?2. k-means(k均值)算法2.1 算法过程2.2 损失函数2.3 k值的选择2.4 KNN与K-means区别？2.5 K-Means优缺点及改进3. 高斯混合模型(GMM)3.1 GMM的思想3.2 GMM与K-Means相比4. 聚类算法如何评估5. 代码实现 1. 聚类算法都是无监督学习吗? 什么是聚类算法？聚类是一种机器学习技术，它涉及到数据...

Knn，Kmeans和GMM

Leiroy的博客

04-13

671

Knn，Kmeans和GMM KNN 分类算法监督学习 K值含义 - 对于一个样本X，要给它分类，首先从数据集中，在X附近找离它最近的K个数据点，将它划分为归属于类别最多的一类。问题： KNN算法的核心是寻找待测样本在训练样本集中的k个近邻，如果训练样本集过大，则传统的遍历全样本寻找k近邻的方式将导致性能的急剧下降。改进: 1.kd-tree kd-tree以空间换时间，**利用训练样本集中的样本点，沿各维度依次对k维空间进行划分，建立二叉树，**利用分治思想大大提高算法搜索效率。我们知

Kmeans GMM 高斯混合模型 EM算法

MachineRandy

05-19

682

Kmeans 模型是 GMM 模型的一种，高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况。 GMM 参数的学习可以用EM算法，EM算法是用于含有隐变量的概率模型参数的极大似然估计，EM算法通过迭代来的方式进行极大似然估计，每一次迭代由可以分为：E步，求期望；M步，...

二维均值方差高斯分布图 python_图像分割实战 - K均值算法（K-Means）和高斯混合模型（GMM）

weixin_39956036的博客

11-23

1456

1. K均值算法(K-Means)是一种无监督的聚类学习算法，它尝试找到样本数据的自然类别，分类K是由用户自己定义的，它在不需要任何其它先验知识的情况下，依据算法的迭代规则，把样本划分为K类，通过不断跌代和移动质心来完成分类。是一种硬分类的方法：即以距离为依据，离哪个点距离越近，它就应该标记为哪个编号，计算两个点之间的距离，有可能是向量(x，y)或(x，y，z)。不断的迭代，中心点不断的变换，使得...

【机器学习】K-means和GMM

duxinyuhi的专栏

12-07

1078

You can also read more on the differences of the methods, and how they are related. (KMeans can be seen as a special case of GMM that has equal covariance per cluster).

小白都能了解的聚类算法之一(Kmeans与GMM)

bitcarmanlee的博客

03-24

7734

1.标准Kmeans 经典的标准kmeans算法无需多言，每个无监督学习的开场白一般都是标准kmeans算法。具体的原理不再多言，可以参考之前的文章： https://blog.csdn.net/bitcarmanlee/article/details/52092288 标准的kmeans的优缺点，上面的文章也有详细介绍，再详细说一说kmeans++对于初始中心点的优化 kmeans++中心点初始...

【机器学习】GMM与kmeans

littlemichelle

04-07

514

高斯混合模型和K-means的区别和联系参考：高斯混合模型（GMM）及其EM算法的理解（很详细啦）