文本聚类技术:算法、相似度计算与热点话题检测
1. 聚类算法介绍
在数据处理和分析领域,聚类算法是一种重要的工具,它能够将数据集中相似的数据点归为一类。常见的聚类算法有基于密度的聚类算法和基于模型的聚类算法。
1.1 基于密度的聚类算法
基于密度的聚类算法的典型特征是不基于各种距离,而是基于密度。它根据样本的分布密度(通常由半径为 ε 的区域内的样本点数 n 定义)来确定样本点是否“密度可达”,将密度可达的样本点归为同一类,最终得到聚类结果。
与基于距离的相似度计算方法不同,基于距离的方法聚类后的数据常呈“圆形”,而基于密度的方法打破了这一限制。其基本原理是,只要一个区域内的点密度超过一定阈值,这些点就会被归为一类,而不考虑它们的形状或分布。
然而,该算法也有缺点,在不符合高斯分布的数据集上效果不佳,且难以通过调整参数来改善。常见的基于密度的聚类算法包括 DBSCAN、OPTICS 等。
1.2 基于模型的聚类算法
基于模型的聚类算法的主要思想是先为每个类设置一个框架或模型,然后找到符合该模型的数据集进行填充。该算法的一个潜在假设是,一系列概率分布决定了要处理的数据集,这种模型可能是空间中数据点的密度分布函数。
其中,基于模型的深度聚类的基本思想是将深度学习强大的表示能力融入聚类目标,并通过微调优化聚类效果。常见的预训练方法使用深度神经网络(如自编码器),将原始高维数据映射到低维特征表示,然后在预训练表示上通过 KL 散度损失、k-means 损失、子空间损失和交叉熵损失等进行微调,使其在聚类过程中更具区分性。