Correlated Topic model 的Gibbs sampling

最新推荐文章于 2021-03-01 01:32:39 发布

置顶 HFUT_qianyang

最新推荐文章于 2021-03-01 01:32:39 发布

阅读量2.6k

点赞数 2

分类专栏：数据挖掘算法贝叶斯相关模型及程序概率主题模型文章标签：主题模型 topic-mode Gibbs-samp

数据挖掘算法同时被 3 个专栏收录

68 篇文章

订阅专栏

贝叶斯相关模型及程序

43 篇文章

订阅专栏

概率主题模型

36 篇文章

订阅专栏

本文详细介绍了Correlated Topic Model (CTM) 中的主题采样、文档主题分布参数采样及其先验分布的采样方法。针对CTM模型的非共轭特性，通过Gibbs采样解决了参数估计难题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文来自师兄的博客：http://blog.csdn.net/wjj5881005/article/details/53320577

关于经典LDA的theta
Correlated Topic Model中的theta
CTM的Gibbs sampling

1.关于经典LDA的 $\theta$

自从David Blei 2003的一篇Latent Dirichlet Allocation文章横空出世之后，LDA模型就火遍全球了，无数的博士生就靠修改这个模型的图模型毕业了，呵呵，当然也包括我在内。在经典的LDA模型中，设置文档的主题分布是服从狄利克雷分布，即 $\theta\sim Dir(\alpha)$ 。这么做的主要原因是为了推导的方便，我们知道主题z是服从多项式分布的，即 $z\sim Mult(\theta)$ ，此时狄利克雷分布就和多项式构成了共轭分布。为什么便于推导，我们可以感受一下文献[1]中给出的关于 $p(\vec{z}|\alpha)$ 。

p (z ⃗ | α) = \int p (z ⃗ | Θ) p (Θ | α) d Θ = \int [\prod m = 1 M \prod k = 1 K θ n k m m, k] [1 Δ ( α ) \prod m = 1 M \prod k = 1 K θ α k - 1 m, k] d θ ⃗ m = 1 Δ ( α ) \int \prod m = 1 M \prod k = 1 K θ n k m + α k - 1 m, k d θ ⃗ m = \prod m = 1 M Δ ( n ⃗ m + α ⃗ ) Δ ( α ⃗ ), n ⃗ m = {n k m} K k = 1, Δ (α) = [ Γ ( α ) ] K Γ ( K α )

$\begin{equation} \begin{aligned} p(\vec{z}|\alpha)&=\int p(\vec{z}|\Theta)p(\Theta|\alpha)d\Theta\\ &=\int \left[\prod_{m=1}^{M}\prod_{k=1}^{K}\theta_{m,k}^{n_{m}^{k}}\right]\left[\frac{1}{\Delta(\alpha)}\prod_{m=1}^{M}\prod_{k=1}^{K}\theta_{m,k}^{\alpha_{k}-1}\right]d\vec{\theta}_{m}\\ &=\frac{1}{\Delta(\alpha)}\int \prod_{m=1}^{M}\prod_{k=1}^{K}\theta_{m,k}^{n_{m}^{k}+\alpha_{k}-1}d\vec{\theta}_{m}\\ &=\prod_{m=1}^{M}\frac{\Delta(\vec{n}_{m}+\vec{\alpha})}{\Delta(\vec{\alpha})}, \vec{n}_{m}=\{n_{m}^{k}\}_{k=1}^{K},\Delta(\alpha)=\frac{[\Gamma(\alpha)]^{K}}{\Gamma(K\alpha)} \end{aligned} \end{equation}$
这里写图片描述

上式中，很明显看到两个中括号中的形式非常相似，右边的中括号里的是狄利克雷分布，左边中括号里的是似然函数，是由多项式分布组织起来。这就是共轭分布的好处， 推理简单。然而，我们令

θ $\theta$ 服从狄利克雷分布的一个缺陷就是，不能建模各个主题的关系，这是由狄利克雷分布的性质导致的。下面我们我们介绍David Blei在2006年提出的一个新的模型Correlated Topic model。

2.Correlated Topic Model中的 $\theta$

在实际中，主题之间并不是不相关的。例如一篇文档中如果有跟遗传学(genetics)有关的主题，那么非常有可能该篇文档也会涉及健康(health)以及疾病(disease)主题。而经典LDA中的狄利克雷分布，由于该分布自身的局限性，并不能很好的建模topics之间的correlation。为了解决这个问题，David Blei在2006年提出了Correlated Topic model（简称CTM）[2]，该模型为了考虑主题之间的关系，摒弃了标准LDA模型中的先验狄利克雷分布，而是使logistic Normal分布，使用正态分布中的协方差矩阵 $\Sigma$ 建模各个主题之间的关系。具体地一篇文档 $d$ 的生成过程如下：

η d \sim N (μ, Σ), θ k d = e η k d \sum K j = 1 e η j d, \forall n \in {1, . . ., N d} : z d n \sim M u l t (θ d), w d n \sim M u l t (Φ z d n)

$\begin{equation} \eta_{d}\sim N(\mu,\Sigma),\theta_{d}^{k}=\frac{e^{\eta_{d}^{k}}}{\sum_{j=1}^{K}e^{\eta_{d}^{j}}}, \forall n\in\{1,...,N_{d}\}:z_{dn}\sim Mult(\theta_{d}),w_{dn}\sim Mult(\Phi_{z_{dn}}) \end{equation}$
这里写图片描述

在文中，作者指出，该模型比LDA模型更具有表现力(expressive)。然而，问题来了，此时的先验与多项式分布并不是共轭分布，因此这会给模型求解带来了更大的困难（呵呵，这个世界总是不完美的）。Blei在文中使用的是近似推理（approximate techniques），也就是依赖于unwarranted mean-field assumptions的变分推理（variational inference）。此时，如果mean-field假设做的不好的话，那么近似的结果可能会令人unsatisfactory[3]。因此，近年来，有多位学者试图使用Gibbs sampling的方法来求解CTM模型。代表做有文献[3][4]。文献[4]中的作者还强调了：Gibbs sampling is more accurate than variational inference and better supports the construction of composite models。关于and后面一句我的理解是：我们如果对LDA模型进行各种改进，使用Gibbs sampling的话求解不会困难太多，但是如果使用变分的话，推理起来可能就难度特别大。本文主要参考文献[3]介绍一下，CTM模型的吉布斯抽样方法。

3. CTM的Gibbs sampling

首先我们给出标准LDA模型中关于主题 $z$ 的抽样公式：

p (z d n = k | z ⃗ - n, w d n = t, w ⃗ - d n) = C ( t ) k , - n + β t \sum V j = 1 [ C ( j ) k , - n + β t ] \cdot C ( k ) m , - n + α k [ \sum K k = 1 C ( k ) m + α k ] - 1 (1)

$\begin{equation} p(z_{dn}=k|\vec{z}_{-n},w_{dn}=t,\vec{w}_{-dn})=\frac{C_{k,-n}^{(t)}+\beta_{t}}{\sum_{j=1}^{V}[C_{k,-n}^{(j)}+\beta_{t}]}\cdot \frac{C_{m,-n}^{(k)}+\alpha_{k}}{[\sum_{k=1}^{K}C_{m}^{(k)}+\alpha_{k}]-1}(1) \end{equation}$

3.1 CTM中关于主题 $z$ 的采样

按照文献[3]，我们直接给出CTM模型中关于主题 $z$ 的抽样公式，如下：

p (z d n = k | z ⃗ - n, w d n = t, w ⃗ - d n) = C ( t ) k , - n + β t \sum V j = 1 [ C ( j ) k , - n + β t ] \cdot e η k d \sum K j = 1 e η j d (2)

$\begin{equation} p(z_{dn}=k|\vec{z}_{-n},w_{dn}=t,\vec{w}_{-dn})=\frac{C_{k,-n}^{(t)}+\beta_{t}}{\sum_{j=1}^{V}[C_{k,-n}^{(j)}+\beta_{t}]}\cdot \frac{e^{\eta_{d}^{k}}}{\sum_{j=1}^{K}e^{\eta_{d}^{j}}}(2) \end{equation}$
对比公式（1）和公式（2），我们发现区别就在于等式右边的第二项，二者都表示文档

d $d$ 中主题

k $k$ 所占的比例，但是因为所使用的先验不同，导致最终的式子不同。在标准LDA中，因为我们可以将

θ $\theta$ 积分掉（一般文献里称为integrated out），所以我们不需要对

θ $\theta$ 进行抽样，而在CTM中，因为是非共轭先验，所以

θ $\theta$ 积不掉，也就是

η $\eta$ 积不掉，因此我们需要对

η $\eta$ 进行抽样，这也就是使用Gibbs sampling求解CTM模型的核心。

3.2 CTM中关于文档主题分布参数 $\eta$ 的后验分布

在文档 $d$ 中观测到主题 $k$ 的概率为：

p (z d n = k) = e η k d \sum K j = 1 e η j d (3)

$\begin{equation} p(z_{dn}=k)=\frac{e^{\eta_{d}^{k}}}{\sum_{j=1}^{K}e^{\eta_{d}^{j}}}(3) \end{equation}$
很明显，在给定

Z $Z$ 的情况下，这是一个多项式逻辑回归，

Z $Z$ 是多项式观测值(multinomial observations)。因此观测到所有文档中的主题的似然概率函数为：

p (Z | η) = \prod d = 1 D ⎛ ⎝ \prod n = 1 N d e η z d n d \sum K j = 1 e η j d ⎞ ⎠ (4)

$\begin{equation} p(Z|\eta)=\prod_{d=1}^{D}\left(\prod_{n=1}^{N_{d}}\frac{e^{\eta_{d}^{z_{dn}}}}{\sum_{j=1}^{K}e^{\eta_{d}^{j}}}\right)(4) \end{equation}$
加上先验，

η $\eta$ 的后验分布为：

p (η | Z, W) \propto \prod d = 1 D ⎡ ⎣ ⎛ ⎝ \prod n = 1 N d e η z d n d \sum K j = 1 e η j d ⎞ ⎠ N (η d | μ, Σ) ⎤ ⎦ (5)

$\begin{equation} p(\eta|Z,W) \propto \prod_{d=1}^{D}\left[\left(\prod_{n=1}^{N_{d}}\frac{e^{\eta_{d}^{z_{dn}}}}{\sum_{j=1}^{K}e^{\eta_{d}^{j}}}\right){\scr{N}}\left(\eta_{d}|\mu,\Sigma\right)\right](5) \end{equation}$
公式(5)就是一个贝叶斯逻辑回归模型。因此我们可以在现有文献中寻找求解多项式逻辑回归模型的方法来抽样

eta $eta$ ，例如文献[4]中提出可以参考文献[5]中的方法。本文主要介绍文献[3]中年给出的方法。这里为了方便描述，我们只考虑文档

d $d$ （事实上，在给定

Z $Z$ 的情况下，其它文档对文档

d $d$ 的主题分布参数

ηkd $\eta_{d}^{k}$ 并没有影响，因此我们可以treat documents seperately）。依据文献[6]，可以得到在能够观测到

Z $Z$ 以及

η−kd $\eta_{d}^{-k}$ 的情况下

ηkd $\eta_{d}^{k}$ 的似然函数，如下所示：

L (η k d | Z d, η - k d) = \prod n = 1 N d (e ρ k d 1 + e ρ k d) z k d n (1 1 + e ρ k d) 1 - z k d n = ( e ρ k d ) C k d ( 1 + e ρ k d ) N d (6)

$\begin{equation} {\scr{L}}(\eta_{d}^{k}|Z_{d},\eta_{d}^{-k})=\prod_{n=1}^{N_{d}}\left(\frac{e^{\rho_{d}^{k}}}{1+e^{\rho_{d}^{k}}}\right)^{z_{dn}^{k}}\left(\frac{1}{1+e^{\rho_{d}^{k}}}\right)^{1-z_{dn}^{k}}=\frac{(e^{\rho_{d}^{k}})^{C_{d}^{k}}}{(1+e^{\rho_{d}^{k}})^{N_{d}}}(6) \end{equation}$
其中

ρkd=ηkd−ζkd $\rho_{d}^{k}=\eta_{d}^{k}-\zeta_{d}^{k}$ ;

ζkd=log(∑j≠keηjd) $\zeta_{d}^{k}=log\left(\sum_{j\neq k}e^{\eta_{d}^{j}}\right)$ ；并且

Ckd=∑Ndn=1zkdn $C_{d}^{k}=\sum_{n=1}^{N_{d}}z_{dn}^{k}$ 表示文档

d $d$ 中属于主题

k $k$ 的单词的数量。因此，加上

ηkd $\eta_{d}^{k}$ 的先验分布，我们就可以得到

ηkd $\eta_{d}^{k}$ 的后验分布，如下所示：

p (η k d | η - k d, Z, W) \propto L (η k d | η - k d, Z) N (η k d | μ k d, σ 2 k) (7)

$\begin{equation} p(\eta_{d}^{k}|\eta_{d}^{-k},Z,W)\propto {\scr{L}}(\eta_{d}^{k}|\eta_{d}^{-k},Z){\scr{N}}(\eta_{d}^{k}|\mu_{d}^{k},\sigma_{k}^{2})(7) \end{equation}$
其中

μkd=μk−Λ−1kkΛk,−k(η−kd−μ−k) $\mu_{d}^{k}=\mu_{k}-\Lambda_{kk}^{-1}\Lambda_{k,-k}(\eta_{d}^{-k}-\mu_{-k})$ 以及

σ2k=Λ−1kk $\sigma_{k}^{2}=\Lambda_{kk}^{-1}$ 。

Λ=Σ−1 $\Lambda=\Sigma^{-1}$ 是正态分布的precision matrix。

3.3 CTM中关于文档主题分布参数 $\eta$ 的Gibbs sampling

上一小节给出了文档主题分布参数 $\eta_{d}^{k}$ 的后验分布。因为非共轭性，导致我们无法直接根据后验分布形式进行采样。一般情况下，我们可以采用MH（Metropolis-Hastings）算法对参数 $\eta_{d}^{k}$ 进行采样，但是MH算法会存在两个问题：一个是我们需要指定一个合理建议分布（proposal distribution），这个不太好办；另一个就是接受率的问题，如果接受率过低会导致最终的采样非常缓慢。另一个种根据此后验分布进行采样的思路就是使用Data augmentation技术。例如文献[4]中使用的数据增加方法使得我们可以截断高斯分布中进行采样，但是文献[3]指出，该方法依然涉及到复杂的accept/reject strategies。本文介绍文献[3]中提出的方法，它是一个不需要指定建议分布并且简单精确地抽样方法，方法核心是参考文献[7]。首先根据文献[7]我们可以给出如下定理。

定理1（Scale Mixture Representation）.似然函数 ${\scr{L}}(\eta_{d}^{k}|\eta_{d}^{-k},Z)$ 可以表示为
$( e ρ k d ) C k d ( 1 + e ρ k d ) N d = 1 2 N d e κ k d ρ k d \int \infty 0 e - λ k d ( ρ k d ) 2 2 p (λ k d | N d, 0) d λ k d$ $\begin{equation}\frac{(e^{\rho_{d}^{k}})^{C_{d}^{k}}}{(1+e^{\rho_{d}^{k}})^{N_{d}}}=\frac{1}{2^{N_{d}}}e^{\kappa_{d}^{k}\rho_{d}^{k}}\int_{0}^{\infty}e^{-\frac{\lambda_{d}^{k}(\rho_{d}^{k})^{2}}{2}}p(\lambda_{d}^{k}|N_{d},0)d\lambda_{d}^{k}\end{equation}$
其中 $\kappa_{d}^{k}=C_{d}^{k}-N_{d}/2$ 并且 $p(\lambda_{d}^{k}|N_{d},0)$ 是Polya-Gamma分布 $PG(N_{d},0)$

其中是 $\lambda_{d}^{k}$ 辅助变量。从该定理中，我们很容易可以发现 $p(\eta_{d}^{k}|\eta_{d}^{-k},Z,W)$ 是公式(8)联合分布 $p(\eta_{d}^{k},\lambda_{d}^{k}|\eta_{d}^{-k},Z,W)$ 的边缘分布。

p (η k d, λ k d | η - k d, Z, W) \propto 1 2 N d e x p (κ k d ρ k d - λ k d ( ρ k d ) 2 2) N (η k d | μ k d, σ 2 k) (8)

$\begin{equation} p(\eta_{d}^{k},\lambda_{d}^{k}|\eta_{d}^{-k},Z,W)\propto \frac{1}{2^{N_{d}}}exp(\kappa_{d}^{k}\rho_{d}^{k}-\frac{\lambda_{d}^{k}(\rho_{d}^{k})^{2}}{2}){\scr{N}}(\eta_{d}^{k}|\mu_{d}^{k},\sigma_{k}^{2})(8) \end{equation}$
基于公式(8)，我们就可以交替采样

ηkd $\eta_{d}^{k}$ 和

λkd $\lambda_{d}^{k}$ 。在给定

λkd $\lambda_{d}^{k}$ 的情况下（即discarding辅助变量），我们就可以根据后验分布

p(ηkd|η−kd,Z,W) $p(\eta_{d}^{k}|\eta_{d}^{-k},Z,W)$ 得到采样样本。具体地， 对于 $\eta_{d}^{k}$ ，有：

p (η k d | η - k d, Z, W, λ - k d) \propto e x p (κ k d η k d - λ k d ( ρ k d ) 2 2) N (η k d | μ k d, σ 2 k) = N (γ k d | μ k d, (τ k d) 2) (9)

$\begin{equation} p(\eta_{d}^{k}|\eta_{d}^{-k},Z,W,\lambda_{d}^{-k})\propto exp\left(\kappa_{d}^{k}\eta_{d}^{k}-\frac{\lambda_{d}^{k}(\rho_{d}^{k})^{2}}{2}\right){\scr{N}}(\eta_{d}^{k}|\mu_{d}^{k},\sigma_{k}^{2})={\scr{N}}(\gamma_{d}^{k}|\mu_{d}^{k},(\tau_{d}^{k})^{2})(9) \end{equation}$
其中后验均值为

μkd=(τkd)2(σ−2kμkd+κkd+λkdζkd) $\mu_{d}^{k}=(\tau_{d}^{k})^{2}(\sigma_{k}^{-2}\mu_{d}^{k}+\kappa_{d}^{k}+\lambda_{d}^{k}\zeta_{d}^{k})$ 并且后验分布的方差为

(τkd)2=(σ−2k+λkd)−1 $(\tau_{d}^{k})^{2}=(\sigma_{k}^{-2}+\lambda_{d}^{k})^{-1}$ 。这时候，从一元正态分布中进行采样就变得极其简单了，一般都有现成的采样代码。
对于 $\lambda_{d}^{k}$ ，有：

p (λ k d | η, Z, W,) \propto e x p (- λ k d ( ρ k d ) 2 2) p (λ k d | N d, 0) = P G (λ k d; N d, ρ k d) (10)

$\begin{equation} p(\lambda_{d}^{k}|\eta,Z,W,)\propto exp\left(-\frac{\lambda_{d}^{k}(\rho_{d}^{k})^{2}}{2}\right)p(\lambda_{d}^{k}|N_{d},0)=PG(\lambda_{d}^{k};N_{d},\rho_{d}^{k})(10) \end{equation}$
可以很容易看出，

λkd $\lambda_{d}^{k}$ 的后验分布依然是ploya-Gamma分布。剩下的就是关于如何从PG分布中进行采样了。文献[7]中给出了一种从PG中进行采样的方法。

定理2（PG分布的可加性）假如 $x_{i}\sim PG(1,\rho)$ 并且 $y=\sum_{i=1}^{n}x_{i}$ ，那么有 $y\sim PG(n,\rho)$

因此从 $PG(N_{d},\rho_{d}^{k})$ 中采样就是从 $PG(1,\rho_{d}^{k})$ 抽样 $N_{d}$ 个样本然后想加就是我们需要的 $\lambda_{d}^{k}$ 。 $N_{d}$ 一般是文档 $d$ 中单词的数量。因为 $N_{d}$ 经常是非常大，这会导致抽样变得非常慢，所以也可以取 $M\ll N_{d}$ 个样本来代替，一般效果也不会太大。文献[7]同时给出了如何高效地从 $PG(1,\rho_{d}^{k})$ 中抽取样本。
虽然文献[7]中的方法已经很赞，但是这里我们要介绍的文献[3]中的方法更加地赞。根据中心极限定理，当 $N_{d}$ 足够大时， $y$ 服从正态分布。即有：

λ k d \sim N (μ k d, (σ k d) 2) (11)

$\begin{equation} \lambda_{d}^{k}\sim {\scr{N}}(\mu_{d}^{k},(\sigma_{d}^{k})^{2}) (11) \end{equation}$
文献[8]中给出了

PG(a,c) $PG(a,c)$ 分布的矩母函数为

f (t) = E [e x p (λ k d t)] = c o s h a ( c / 2 ) c o s h a ( c 2 - 2 t \sqrt 2 ) (12)

$\begin{equation} f(t)=E[exp(\lambda_{d}^{k}t)]=\frac{cosh^{a}(c/2)}{cosh^{a}\left(\frac{\sqrt{c^{2}-2t}}{2}\right)}(12) \end{equation}$
因此我们可以根据矩母函数求解

PG(a,c) $PG(a,c)$ 分布的均值和方差，并将此均值方差当做正态分布的均值和方差。

E [λ k d] = lim t \to 0 f' (t) = a 2 c t a n h (c 2) (13) E [(λ k d) 2] = lim t \to 0 f'' (t) = a ( - ( 2 + a ) c 2 + a c 2 c o s h ( c ) + 2 c s i n h ( c ) ) 8 c 4 c o s h ( c 2 ) 2 (14)

$\begin{equation} \begin{aligned} &E[\lambda_{d}^{k}]=\lim_{t \to 0}f^{'}(t)=\frac{a}{2c}tanh\left(\frac{c}{2}\right)(13)\\ &E[(\lambda_{d}^{k})^{2}]=\lim_{t \to 0}f^{''}(t)=\frac{a(-(2+a)c^{2}+ac^{2}cosh(c)+2csinh(c))}{8c^{4}cosh\left(\frac{c}{2}\right)^{2}}(14) \end{aligned} \end{equation}$
根据

Var(λkd)=E[(λkd)2]−E[λkd]2 $Var(\lambda_{d}^{k})=E[(\lambda_{d}^{k})^{2}]-E[\lambda_{d}^{k}]^{2}$ 就可以求得正态分布的近似方差。到这里，整个CTM的Gibbs推导就介绍完了，再下一小节我们介绍如何采样

η $\eta$ 的先验正态分布中的参数。

3.4 CTM中对先验分布 $\mu$ 和 $\Sigma$ 的采样

我们将 $\mu$ 和 $\Sigma$ 也看成是随机变量，并且再上面加共轭的Normal-Inverse-Wishart先验，即 $\pi(\mu,\Sigma)={\scr{NIW}}(\mu_{0},\rho,\kappa,W)$ ，具体为：

Σ | κ, W - 1 \sim I W (κ, W - 1), μ | Σ, μ 0, ρ \sim N (μ 0, Σ / ρ) (15)

$\begin{equation} \Sigma|\kappa,W^{-1}\sim {\scr{IW}}(\kappa,W^{-1}),\mu|\Sigma,\mu_{0},\rho\sim {\scr{N}}(\mu_{0},\Sigma/\rho)(15) \end{equation}$
根据观测到的

η $\eta$ 和

Z $Z$ ，我们可以求得

μ $\mu$ 和

Σ $\Sigma$ 的后验分布，如下所示：

p (μ, Σ | η, Z, W) \propto π (μ, Σ) \prod d p (η d | μ, Σ) = N I W (μ' 0, ρ', κ', W') (16)

$\begin{equation} p(\mu,\Sigma|\eta,Z,W)\propto \pi(\mu,\Sigma)\prod_{d}p(\eta_{d}|\mu,\Sigma)={\scr{NIW}}(\mu_{0}^{'},\rho^{'},\kappa^{'},W^{'})(16) \end{equation}$
具体地参数更新公式为：

μ′0=ρρ+Dμ0+Dρ+Dη¯ $\mu_{0}^{'}=\frac{\rho}{\rho+D}\mu_{0}+\frac{D}{\rho+D}\bar{\eta}$ ，

ρ′=ρ+D $\rho^{'}=\rho+D$ ，

κ′=κ+D $\kappa^{'}=\kappa+D$ 并且

W′=W+Q+ρDρ+D(η¯−μ0)(η¯−μ0)T $W^{'}=W+Q+\frac{\rho D}{\rho + D}(\bar{\eta}-\mu_{0})(\bar{\eta}-\mu_{0})^{T}$ ，其中

η¯=1D∑dηd $\bar{\eta}=\frac{1}{D}\sum_{d}\eta_{d}$ 以及

Q=∑d(ηd−η¯)(ηd−η¯)T $Q=\sum_{d}(\eta_{d}-\bar{\eta})(\eta_{d}-\bar{\eta})^{T}$ 。
关于这四个参数的初始化可以设：

ρ=κ=0.01D,μ0=0,andW=κI $\rho=\kappa=0.01D,\mu_{0}=0,and\; W=\kappa I$ 。

全文终。

[1] Gregor Heinrich, Parameter estimation for text analysis
[2] David Blei, Correlated Topic Models
[3] Jianfei Chen, Jun Zhu, et al., Scalable Inference for Logistic-Normal Topic Models
[4] David Mimno et al., Gibbs Sampling for Logistic Normal Topic Models with Graph-Based Priors
[5] P. C. Groenewald & L. Mokgatlhe. Bayesian computation for logistic regression
[6] C. Holmes and L. Held. Bayesian auxiliary variable models for binary and multinomial regression
[7] N. G. Polson, J. G. Scott, and J. Windle. Bayesian inference for logistic models using Polya-Gamma latent variables
[8] N. G. Polson and J. G. Scott. Default bayesian analysis for multi-way tables:
a data-augmentation approach