维度选择的似然比检验解读
立即解锁
发布时间: 2025-08-23 01:52:52 阅读量: 1 订阅数: 2 

### 维度选择的似然比检验解读
#### 1. 引言
在多元统计分析中,许多模型都具有维度结构。这些模型涵盖了多种类型,例如:
- **列联表模型**:像对应分析、相关模型、关联模型和潜在类别模型等。
- **其他多元数据模型**:包括多维尺度分析、因子分析、典型相关分析(其特殊情况有降秩回归、典型判别分析和多元方差分析)。
- **参数混合模型**:如正态混合模型,可视为潜在类别模型向连续显变量的推广。
对于这些模型,维度的选择至关重要。例如:
- 在对应分析、相关模型和关联模型中,需要确定列联表中依赖关系所代表的维度数量。
- 在潜在类别分析中,要评估解释列联表中显变量依赖关系所需的类别数量。
- 在多维尺度分析中,需确定展示(不)相似性的空间维度。
- 在因子分析中,要确定解释显变量协方差所需的因子数量。
- 在典型相关分析、降秩回归、典型判别分析和多元方差分析中,要确定需解释的典型变量数量。
似然比检验常被用于维度选择,但在心理测量学的某些领域,对数似然比(LR)统计量的渐近分布性质仍存在诸多混淆。通常,代表特定维度的正确模型与饱和模型差异的LR统计量,其渐近分布可保证为卡方分布;然而,代表正确模型与比其高一维模型差异的LR统计量,由于违反了某个正则条件,不太可能是卡方分布。本文旨在澄清认为后者也能保证渐近为卡方分布的误解,这种误解在多个领域反复出现,不过在某些领域已得到纠正。
为说明维度选择的一般问题,以Goodman以及Gilula和Haberman提出的相关模型(CM)为例。考虑一个\(I\times J\)的列联表\(F = \{f_{ij}\}\),相应的观测比例为\(P = \{p_{ij}\} = \{f_{ij}/N\}\),其中\(N\)是总样本量,行和列的边际分别记为\(p_{i.} = \sum_{j} p_{ij}\)和\(p_{.j} = \sum_{i} p_{ij}\)。相关模型的形式为:
\(\pi_{ij} = \alpha_{i}\beta_{j}(1 + \sum_{t=1}^{T} \varphi_{t}r_{it}c_{jt})\)
为消除模型中的不确定性,施加以下识别条件:
\(\sum_{i} \alpha_{i} = 1\),\(\sum_{j} \beta_{j} = 1\),\(\sum_{i} p_{i.}r_{it} = 0 = \sum_{j} p_{.j}c_{jt}\)
\(\sum_{i} p_{i.}r_{it}r_{it'} = \delta_{tt'} = \sum_{j} p_{.j}c_{jt}c_{jt'}\)
其中,\(\delta_{tt'}\)是Kronecker delta。为简便起见,将具有\(T\)个维度的CM记为\(CM(T)\)。当\(T^* = \min(I - 1, J - 1)\)时,\(CM(T^*)\)是饱和模型,此时概率不受限制;\(CM(0)\)等价于独立模型;\(1\leq T < T^*\)的\(CM(T)\)是秩等于\(T + 1\)的降秩模型。
当通过最大似然法估计CM时,似然比(LR)检验\(\lambda\)是一个明显的选择,其定义为:
\(\lambda = L_0/L_1\)
其中,\(L_0\)是\(H_0\)下模型的最大似然,\(L_1\)是\(H_1\)下的最大似然,且\(H_0\)嵌套在\(H_1\)中。若\(H_0\)下的模型为真且满足某些正则条件,\(-2\log\lambda\)渐近服从自由度等于两个假设下参数数量差异的卡方分布。
考虑三种LR检验,根据\(H_1\)下的模型,可分为两类:
- 若\(H_1\)是饱和模型,为无条件LR检验(统计量),记为\(\lambda_s\)。
- 若\(H_1\)是非饱和模型,为条件LR检验,记为\(\lambda_c\)。
当\(H_0\)是\(CM(0)\),\(H_1\)是饱和模型且\(CM(0)\)为真时,\(-2\log\lambda_s\)渐近服从卡方分布。但当\(H_0\)是\(CM(1)\),\(H_1\)是饱和模型且\(CM(1)\)为真时,只有\(CM(0)\)不为真,\(-2\log\lambda_s\)才渐近服从卡方分布;若\(CM(0)\)和\(CM(1)\)都为真,则无法保证其渐近为卡方分布。同样,当\(H_0\)是\(CM(0)\),\(H_1\)是\(CM(1)\)且\(CM(0)\)为真时,\(-2\log\lambda_c\)也无法保证渐近为卡方分布。实际上,在这种情况下,\(-2\log\lambda_c\)渐近不服从卡方分布,而是服从某个中心Wishart矩阵最大特征值的分布。
这些情况在图1的(b’)和(c’)面板中有更一般的说明,其中\(\chi^2_m(\delta)\)表示自由度为\(m\)、非中心参数为\(\delta\)的(渐近)非中心卡方分布,\(\delta = 0\)表示中心卡方分布。在(b’)面板中,正则条件成立,嵌套模型的卡方分布在自由度和非中心参数方面具有可重复性;但在(c’)面板中,正则条件被违反,这种可重复性不再成立。只有代表饱和模型与\(T\)维模型差异的LR统计量,在假设\(T - 1\)不成立或\(T = 0\)(独立模型)时,才保证渐近(中心)卡方分布,其余两个LR统计量的渐近分布除少数特殊情况外通常未知。这与图1的(b)和(c)面板中的“正常”情况形成对比,在这些情况下,假设正则条件成立,所有三个LR统计量根据所假设的真实模型,渐近为中心或非中心卡方分布,且卡方分布的可重复性完美成立。
\(-
0
0
复制全文
相关推荐









