论文笔记:[1]孟海宁,冯锴,朱磊,张贝贝,童新宇,黑新宏.基于Laplacian图谱的短文本聚类算法[J].电子学报,2021,49(09):1716-1723.
论文笔记内容包括:应用场景、优势亮点、方法步骤
应用场景
短文本是生活中极其常见的内容形式,手机短信、用户评论及微博话题等都属于短文本,对短文本进行聚
类分析具有重要的应用价值,如对用户评论进行观点挖掘、对社交媒体进行话题检测以及舆情预警等。
由于短文本数据的特点,会导致传统的聚类算法对短文本聚类精度不高且收敛速度较慢,特点如下:
- 特征维数高
- 特征难提取
- 噪音数据多
其主要的三个方面原因如下:
- 对于非结构化或半结构化的短文本数据,文本向量维度高,聚类结果不准确
- 初始聚类中心随机选择,可能导致算法的时间开销过大
- 短文本数据特征稀疏,聚类过程易受到噪声数据影响,算法鲁棒性差
优势亮点
至今的方法都没能解决这两个问题
- 短文本数据聚类收敛速度慢
- 短文本数据集中的噪音数据对算法的鲁棒性影响
对于上面两个问题,基于Laplacian图谱的短文本聚类方法能较好的解决。
该文依据Laplacian矩阵求解特征值,将矩阵特征值按大小排列,即对短文本的多个特征值 按照与聚类主题关联程度排序,强关联特征在前,次要特征在后,选择前K个特征值,去除统计特征性较弱的次要特征,从而对数据集进行降维处理,避免了维度爆炸。
优点
- 避免短文本数据的维度爆炸,提高聚类的准确度
- 聚类收敛速度快
- 对噪音的鲁棒性较好
方法步骤
主要工作
- 对原始数据集的词频向量矩阵进行Laplacian矩阵化处理,将短文本数据在低维度下表示文本间的相似关系(提高聚类准确度)
- 根据Laplacian矩阵的图谱聚类特性,求解Laplacian矩阵的特征值,表示特征词在文本中的重要性,选择前K个特征向量作为初始聚类中心,而不是像传统聚类算法那样随机选取初始聚类中心(减少聚类的迭代次数,提高收敛速度)
- 在短文本数据集上人工加入不同比例的噪音数据,以此证明该方法具有较强的鲁棒性。
算法流程
- 输入数据集
- 数据预处理:利用NLTK工具包,对数据集进行标记化分词,去除停用词,词性标注及词干提取
- 特征提取
- 将预处理后的数据集映射到向量空间,转换为TF-IDF词频矩阵Q
- 计算词频矩阵Q的Laplacian矩阵L
- 求L的前K个特征值对应的特征向量,组成矩阵R【降维】
- Laplacian图谱聚类算法
- 将矩阵R按特征值大小排序
- 选取R前K个特征值对应的特征向量,作为初始聚类中心
- 根据特征向量夹角的余弦值,将每个数据对象分配到最近的类
- 重新计算聚类中心
- 判断算法收敛,Y:输出聚类结果,N:回到3