西瓜书9.10:实现自动确定聚类数目的k_means算法

本文介绍了一种改进的k均值算法,旨在自动确定最佳聚类数目。通过设计损失函数来衡量类别内部样本点的紧密度和类别间的差异,当损失函数在k值减小时达到局部最小,即为最优聚类数。为了避免均值点过于接近导致聚类数目减少,算法采用了随机选择并逐步增加最远距离均值点的方式。在西瓜数据集4.0上应用此算法,结果显示k=3时聚类效果最佳,并给出了相应的代码实现和结果展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题:

试设计一个能自动确定聚类数的改进k均值算法,编程实现并在西瓜数据集4.0上运行。

数据集:

西瓜数据集4.0

数据集描述:

该数据集共有30个样本,每个样本有密度和含糖度两个特征。

思路:

如何确定k的取值:

这里希望每一类别内部样本点距离较小而不同聚类之间的误差较大,所以用:
这里写图片描述
作为损失函数,其值越小越好,希望取得局部最优点,当值在k时增大,则k=k-1时最优

如何选择较好的k个均值:

随机选取的问题:

若是均值随机选,则很可能寻找到两个距离很近的均值点,在迭代过程中,这两个均值点会逐渐靠近最后重合,使得最后聚类数目减少。

算法思想:

首先随机选取L个均值点,接着根据这L个均值点对样本聚类,减去那些聚类内样本较小的点。接着在剩下的L1个店中随机选取一个均值点,并且寻找距离该点最远的均值点,依次迭代直至选取到K个均值点。

算法流程:

这里写图片描述

k_means算法:

  1. 初始化:首先选取k个均值点
  2. 将样本点划分到距离自己最近的均值点所在类别
  3. 根据聚类结果更新均值点
  4. 重复步骤2.3直至均值点不再改变
  5. 输出聚类结果

结果:

通过对损失函数计算,得到当k=3时,聚类结果最优,聚类结果以及图形化展示如下:
这里写图片描述

源码 :

损失函数计算:

clu_unique=np.unique(cluster)
    Di=[]
    D=len(data)
    E=0.0
    fo
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。 随着统计学的发展,统计学习在机器学习中占据了重要地位,支持向量机(SVM)、决策树和随机森林等算法的提出和发展,使得机器学习能够更好地处理分类、回归和聚类等任务。进入21世纪,深度学习成为机器学习领域的重要突破,采用多层神经网络模型,通过大量数据和强大的计算能力来训练模型,在计算机视觉、自然语言处理和语音识别等领域取得了显著的成果。 机器学习算法在各个领域都有广泛的应用,包括医疗保健、金融、零售和电子商务、智能交通、生产制造等。例如,在医疗领域,机器学习技术可以帮助医生识别医疗影像,辅助诊断疾病,预测病情发展趋势,为患者提供个性化的治疗方案。在金融领域,机器学习模型可以分析金融数据,识别潜在风险,预测股票市场的走势等。 未来,随着传感器技术和计算能力的提升,机器学习将在自动驾驶、智能家居等领域发挥更大的作用。同时,随着物联网技术的普及,机器学习将助力智能家居设备实现更加智能化和个性化的功能。在工业制造领域,机器学习也将实现广泛应用,如智能制造、工艺优化和质量控制等。 总之,机器学习是一门具有广阔应用前景和深远影响的学科,它将持续推动人工智能技术的发展,为人类社会的进步做出重要贡献。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值