双稀疏主题模型(Dual-Sparse Topic Model)编程实现中的细节 Java

最新推荐文章于 2024-11-04 18:15:33 发布

原创最新推荐文章于 2024-11-04 18:15:33 发布 · 置顶 · 1.6k 阅读

5 ·

CC 4.0 BY-SA版权

java 同时被 3 个专栏收录

99 篇文章

订阅专栏

数据挖掘算法

68 篇文章

订阅专栏

贝叶斯相关模型及程序

43 篇文章

订阅专栏

本文深入探讨了双稀疏主题模型，一种针对短文本挖掘的主题模型，旨在挖掘聚焦话题和词汇。文章回顾了从单稀疏模型到双稀疏模型的发展历程，详细介绍了模型的原理、参数更新策略及Java实现细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。
内容可能有不到之处，欢迎交流。

未经本人允许禁止转载。

论文来源

Lin T, Tian W, Mei Q, et al. The dual-sparse topic model: mining focused topics and focused terms in short text[C]//Proceedings of the 23rd international conference on World wide web. ACM, 2014: 539-550.

论文来自于机器学习顶会WWW。该篇文章于14年发表。

模型推理

针对双稀疏主题模型，作者使用的是Collapsed Variational Bayes Inference。相当于标准变分推断来说，该算法相当于对更多的变量进行的积分。
如下为作者模型的推理公式：
在这里插入图片描述

Java编程实现的细节

在编程实现时，无非就是更新参数 $\alpha$ ，参数 $\beta$ ，参数 $z$ 。

但在更新 $\alpha$ ，参数 $\beta$ ，必须进行对数处理，原因是Gamma函数(数值连乘)，可能导致数值过大。

对于Beta函数而言，转化成对数形式，可使用下面的函数：

	public static double log2betaf(double a,double b){
		double beta = logOn2Gamma(a) + logOn2Gamma(b) - logOn2Gamma(a+b);
		return beta;
	}
	//调用Java数值分析计算包lingpipe-4.1.0.jar
	public static double logOn2Gamma(double value) {
		return com.aliasi.util.Math.log2Gamma(value);
	}

另外，需要格外注意的是：通过指数变化将数值由对数再次转化成真实值时，需要注意double类型的最大范围(2的1024次方)。所以，一旦超过这个值，我们就取Double.MAX_VALUE进行计算。

如下为其Java处理方式：

if (FuncUtils.exponential2(log_a1) > 1024) {
	a_mk[d][k] = Double.MAX_VALUE/(Double.MAX_VALUE + FuncUtils.exponential2(log_a0));
}else {
	a_mk[d][k] = FuncUtils.exponential2(log_a1)/(FuncUtils.exponential2(log_a1) + FuncUtils.exponential2(log_a0));
}