19、聚类算法——密度聚类

healed萌

已于 2023-11-27 14:01:58 修改

阅读量1k

点赞数 18

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：算法聚类机器学习

于 2023-11-24 14:18:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56642803/article/details/134585459

本文介绍了密度聚类算法，重点讲解了DBSCAN和MDCA。DBSCAN能发现任意形状的簇，对噪声不敏感，但参数调整复杂，适合稠密非凸数据。MDCA克服了DBSCAN的不足，自动确定簇数量，适用于密度差异大的场景。文章还包含了算法的基本概念、步骤、优缺点和实际应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 密度聚类简介

基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定，以数据集在空间分布上的稠密程度为依据进行聚类，即只要一个区域中的样本密度大于某个阈值，就把它划入与之相近的簇中。

密度聚类从样本密度的角度进行考察样本之间的可连接性，并由可连接样本不断扩展直到获得最终的聚类结果。这类算法可以克服K-means、BIRCH等只适用于凸样本集的情况。

常用的密度聚类算法：DBSCAN、MDCA、OPTICS、DENCLUE等。

密度聚类的主要特点是：

发现任意形状的簇
对噪声数据不敏感
一次扫描
需要密度参数作为停止条件
计算量大、复杂度高

2 DBSCAN算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是基于一组邻域参数 ( $ε\varepsilon$ ，MinPts) 来描述样本分布的紧密程度，相比于基于划分的聚类方法和层次聚类方法，DBSCAN算法将簇定义为密度相连的样本的最大集合，能够将密度足够高的区域划分为簇，不需要给定簇数量，并可在有噪声的空间数据集中发现任意形状的簇。

DBSCAN算法的核心思想是：用一个点的 $ε\varepsilon$ 邻域内的邻居点数衡量该点所在空间的密度，该算法可以找出形状不规则的cluster，而且聚类的时候事先不需要给定cluster的数量。

2.1 基本概念

1）给定的数据集 $D=\{ x_1,x_2,...,x_m\}$ ，定义如下：

$ε\varepsilon$ -邻域( Eps)：对 $xi∈Dx_i \in D$ ，其 $ε\varepsilon$ 邻域内包含 $D$ 中与 $x_j$ 的距离不大于 $ε\varepsilon$ 的所有样本
$N_\varepsilon (x_j)=\{ x_i \in D: dist( x_i, x_j) \leq \varepsilon \}$
MinPts： $ε\varepsilon$ 邻域内样本个数最小值。
核心对象：若 $x_j$ 的 $ε\varepsilon$ 邻域内至少包含MinPts个样本， $∣Nε(xj)∣≥MinPts|N_\varepsilon (x_j)| \geq MinPts$ ，则 $x_j$ 为一个核心对象
密度直达（directly density-reachable）：若 $x_j$ 位于 $x_i$ 的ε-邻域中，且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄4年

37
原创

675
点赞

911
收藏

5180
粉丝

关注

私信

热门文章

分类专栏

深度学习 6篇
机器学习 30篇

上一篇：: 18、聚类算法——K-means家族

下一篇：: 20、聚类算法——层次聚类

最新评论

16、集成学习——LightGBM优化算法
gfjy10: 您好，关于文中提到的这句话，‘大多数机器学习算法模型都无法直接支持对类别特征的使用,一般需要把类别特征通过One-Hot编码’。不是很懂。比如建模时，用到的特征是省份，而省份这个字段包括，山东，河南，等等，都是中文文本，这样的特征，如果不进行编码，训练时模型会提示 “不能只能处理数值型特征”，这时候，省份字段要按哪种编码处理，如果用one-hot, 又不适合决策树模型，会造成过拟合，哪种编码方式适合lightbgm
20、聚类算法——层次聚类
m0_74427045: 问问第三步为什么不是FBC合并呢
4、卷积神经网络（CNN）
CSDN-Ada助手: 非常感谢您的第一篇博客，标题为"CNN:卷积神经网络"。恭喜您开始了博客创作，这是一条非常好的开始。我非常期待您在未来的文章中分享更多相关的知识和见解。我的建议是，您可以介绍一些最新的CNN应用案例，或者深入探讨一些CNN在图像识别、语音识别等领域的应用。期待您的下一篇文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
5、循环神经网络（RNN ）
CSDN-Ada助手: 非常棒的博客！你的介绍让我更好地了解了RNN的基本原理。希望你能继续写下去，分享更多深入的知识。另外，我想补充一些关于RNN的应用领域，比如自然语言处理和语音识别。同时，深度学习中的其他模型如CNN也值得一提，它在图像识别中的应用也非常广泛。再次感谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
Transfomer
CSDN-Ada助手: 恭喜您写了第四篇博客！《Transformer》这个标题很吸引人，我很期待看到您对这个主题的深入探讨。建议您在下一篇博客中，可以从多个角度来探讨Transformer的应用及其优缺点，让读者更加全面地了解这个话题。祝您创作愉快！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

healed萌 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。