统计中的置信区间与假设检验
立即解锁
发布时间: 2025-08-22 00:58:47 阅读量: 2 订阅数: 11 


R语言编程与统计入门教程
### 统计中的置信区间与假设检验
#### 1. 置信区间构建
构建置信区间是统计分析中的重要环节。以构建 90% 置信区间(α = 0.1)为例,对于标准正态分布 Z ∼N(0,1),合适的临界值可通过以下方式获取:
```R
R> qnorm(0.95)
[1] 1.644854
```
这意味着 Pr(−1.644854 < Z < 1.644854) = 0.9。接着,按照相应公式计算:
```R
R> p.hat+c(-1,1)*qnorm(0.95)*p.se
[1] 0.6072137 0.7487185
```
由此可以得出,有 90% 的把握认为,知道下次选举如何投票的选民的真实比例在 0.61 到 0.75 之间(四舍五入到两位小数)。
#### 2. 其他置信区间情况
在一些简单情形中,强调了将点估计(样本统计量)与变异性概念关联起来的重要性。置信区间当然也可以为其他数量构建。一般来说,置信区间旨在从感兴趣的抽样分布中标记出 1 - α 的中心区域,包括非对称的抽样分布。
- **非对称分布情况**:当抽样分布非对称时,基于单一标准化临界值构建对称的置信区间可能不太合理。此时,可以基于假定的非对称抽样分布的原始分位数(或估计的原始分位数)来构建置信区间。使用特定的分位数值标记出相同的 α/2 上尾和下尾区域是一种有效的方法,它能考虑到抽样分布的形状,同时构建出描述潜在真实参数值的有用区间。
#### 3. 置信区间的解释
通常对置信区间的解释是关于对真实参数值所在位置的置信程度,但更正式正确的解释应考虑并阐明其构建的概率性质。从技术上讲,给定 100(1 - α)% 的置信水平,更准确的解释是:在许多来自同一总体、相同大小的样本中,针对每个样本的相同统计量构建相同置信水平的置信区间,预计真实的相应参数值会落在这些区间的 100(1 - α)% 范围内。
#### 4. 置信区间练习
以下是一些关于置信区间的练习题:
- **跑步时间问题**:
- 一名慢跑者记录了他冲刺 100 米的平均时间。他在相同条件下完成了 34 次冲刺,平均时间为 14.22 秒。假设他知道自己跑步时间的标准差 σX = 2.9 秒,要求构建并解释 90% 置信区间以估计真实的平均时间。
- 若标准差未知,且从样本中估计出 s = 2.9,再次构建并解释 90% 置信区间,观察区间的变化。
- **左撇子或双撇子比例问题**:
- 在某一国家,左撇子或双撇子公民的真实比例未知。随机抽取 400 人,结果显示 37 人选择左撇子,11 人选择双撇子。要求计算并解释左撇子公民真实比例的 99% 置信区间。
- 计算并解释左撇子或双撇子公民真实比例的 99% 置信区间。
- **模拟演示问题**:
- 要求通过模拟来演示置信区间的行为。具体步骤如下:
1. 设置一个 5000 行 3 列的矩阵,用 NA 填充。
2. 使用 for 循环,在 5000 次迭代中,每次从速率参数 λe = 0.1 的指数分布中生成一个大小为 300 的随机样本。
3. 评估每个样本的样本均值和样本标准差,并使用这些量和适当抽样分布的临界值计算该分布真实均值的 95% 置信区间。
4. 在 for 循环中,逐行填充矩阵。第一列包含下限,第二列包含上限,第三列是一个逻辑值,如果相应区间包含真实均值 1/λe 则为 TRUE,否则为 FALSE。
5. 循环完成后,计算填充矩阵第三列中 TRUE 的比例,该比例应接近 0.95,每次重新运行循环时该比例会随机变化。
- **绘图问题**:
- 创建一个图,将前 100 个估计的置信区间绘制为从下限 l 到上限 u 的单独水平线,一个叠在另一个上面。可以先创建一个预设 x 和 y 限制的空图(y 限制为 c(1,100)),然后使用 lines 函数和适当的坐标逐步添加每条线(可以使用另一个 for 循环)。最后,在图中添加一条红色垂直线表示真实均值,不包含真实均值的置信区间将不会与该垂直线相交。
#### 5. 假设检验概述
假设检验是基于置信区间和抽样分布的经验,对感兴趣的真实未知参数值做出更正式陈述的方法。在频率主义假设检验中,使用来自相关抽样分布的概率作为反对关于真实值的某些主张的证据,这个概率被称为 p 值。
#### 6. 假设检验的组成部分
- **假设**:
0
0
复制全文
相关推荐










