多元正态分布是统计学中一个重要的概率分布模型,尤其在多元统计分析中扮演着核心角色。本章主要探讨多元正态分布的定义、性质及其参数的估计问题。多元正态分布涉及多个变量,通常以随机向量的形式表示,如 \( X = (X_1, X_2, ..., X_p)^\prime \),它是一个包含p个随机变量的向量。当研究多变量总体时,会得到一系列这样的随机向量,它们组成一个n×p的样本资料阵。
多元正态分布有两个关键参数:均值向量(mean vector)和协方差矩阵(covariance matrix)。均值向量描述了随机向量中每个分量的期望值,而协方差矩阵则刻画了各分量之间的相关性。协方差矩阵是一个对称且非负定的矩阵,它表示了随机向量中任意两个分量的协方差。例如,协方差矩阵 \( \Sigma \) 可以通过正交阵 \( \Gamma \) 对角化,即 \( \Sigma = \Gamma L \Gamma^\prime \),其中 \( L \) 是非负定阵,\( \Gamma \) 是正交阵,\( L \) 的对角元素 \( \lambda_i \) 是 \( \Sigma \) 的特征值,代表了各个主成分的方差。
多元正态分布的性质包括:
1. **独立性和不相关性**:如果两个随机向量 \( X \) 和 \( Y \) 相互独立,则它们的协方差矩阵 \( COV(X,Y) \) 为零矩阵,但反之不成立。不相关的随机向量不一定相互独立。
2. **协方差矩阵的性质**:协方差矩阵 \( \Sigma \) 必须是对称的,且满足 \( \alpha^\prime \Sigma \alpha \geq 0 \) 对所有实向量 \( \alpha \) 成立,这表明它是非负定的。
3. **协方差矩阵的分解**:当 \( \Sigma > 0 \)(正定),可以找到非退化矩阵 \( A \) 使得 \( \Sigma = AA^\prime \),这时 \( A \) 称为 \( \Sigma \) 的平方根矩阵。此外,对于非负定的 \( \Sigma \),也可以找到 \( p \times q \) 矩阵 \( A_1 \) 使得 \( \Sigma = A_1 A_1^\prime \)。
在多元正态分布中,参数估计通常是通过最大似然估计法完成的。对于均值向量和协方差矩阵,我们可以分别基于样本均值和样本协方差矩阵来进行估计。在大样本情况下,参数估计的渐近分布常常与正态分布有关,这是中心极限定理的应用。
在实际应用中,多元正态分布广泛应用于许多领域,如生物统计、工程、经济学和社会科学等,因为它能很好地描述具有线性关系的多个变量。了解并掌握多元正态分布的理论和方法,是进行多元统计分析的基础,有助于我们对复杂数据进行深入理解和建模。