统计中的精度、准确性与集中趋势指标
立即解锁
发布时间: 2025-09-02 01:51:38 阅读量: 7 订阅数: 12 AIGC 

# 统计中的精度、准确性与集中趋势指标
## 1. 软件与R包准备
在开始统计分析前,需要下载并安装基础R和R Studio。本章所需的R包为`tidyverse`,可从以下链接下载:
- `tidyverse`:[http://tidyverse.tidyverse.org](http://tidyverse.tidyverse.org)
示例数据集`MMstat.csv`以及本章的脚本`Chapter 6. Precision.R`和额外的补充文件`Sampledistribution.csv`,可从以下链接下载:
[https://github.com/mmlondon77/Biobook.git](https://github.com/mmlondon77/Biobook.git)
## 2. 精度的概念
在统计学中,精度指的是随机样本的点估计值(如样本均值)与真实(未知)总体的点估计值(总体均值)的接近程度。由于无法测量世界上每个人的某些变量(如身高、年龄等),所以通常会抽取随机样本。从总体(N)中抽取随机样本(n)时,样本n的均值是总体N真实均值的最佳猜测,但n只是N的近似,永远不会完全相同。
在抽样过程中,不可避免地会存在误差,这个误差被称为均值的标准误差(Standard Error of the Mean,简称SEM或SE)。随着样本量的增加,精度也会提高,这在理论上与中心极限定理类似。例如,示例数据集中的`Age`变量可代表样本n,它是未知总体年龄N的最佳猜测。
## 3. 样本量与精度的关系
### 3.1 模拟抽样实验
为了展示样本量与精度的关系,我们回到正态分布。以下是模拟过程:
1. 生成一个均值为90、标准差为5的正态分布:
```R
x <- rnorm(10000, mean=90, sd=5)
```
2. 抽取样本量为10的随机样本,并计算40个这样的样本的均值,构建`sample10`对象:
```R
sample10<-c(90.6, 89, 89, 89.7, 91.5, 89.4, 86.9, 89.2, 89.7,
91.8, 88.7, 88.2, 87.11, 91.2, 91.2, 87.6, 88.9, 91.3, 88.7, 90.4,
89, 90.6, 90, 91.9, 89.3, 91.3, 89.6, 89, 88.1, 89.5, 91.8, 89.7,
88.4, 87.8, 90.1, 89.6, 89.6, 90.7, 89.6, 90.7)
```
`sample10`的总体均值为89.6,标准差为1.3。
3. 抽取样本量为1000的随机样本,计算24个这样的样本的均值,构建`sample1000`对象:
```R
sample1000<-c(89.9, 90, 90.2, 90.1, 89.7, 89.8, 90, 89.9, 89.7,
89.8, 90.1, 89.8, 90, 90, 89.9, 90, 90, 90, 89.8, 89.9, 89.8,
89.9, 89.6)
```
`sample1000`的总体均值为89.9,标准差为0.1。
### 3.2 可视化样本分布
通过绘制直方图和密度曲线来直观展示样本的分布情况:
```R
truehist(sample10, ylim=c(0, 3))
lines(density(sample10))
truehist(sample1000, ylim=c(0,3), xlim=c(85, 93))
lines(density(sample1000))
```
从图中可以明显看出,较大样本`sample1000`的变异性明显小于较小样本`sample10`,且两个分布的均值相近。这清晰地表明了样本量越大,越接近真实总体,同时也凸显了可视化分布的重要性。
### 3.3 使用ggplot2绘制密度分布图
将两个样本的所有值整理到一个长格式的`.csv`文件`Sampledistribution.csv`中,使用`ggplot2`绘制密度分布图:
```R
ggplot(Sampledistribution, aes(mean, fill =Sample)) + geom_density(alpha = 0.2)
```
这个密度分布图再次展示了两个样本分布的不同变异性,说明更多的数据意味着更小的变异性,更接近科学真理。
## 4. 方差与标准差
### 4.1 方差的概念
方差是衡量数据变异性的重要指标,它表示数据集中数据的分散程度。方差的计算方法是取每个数据点与均值的偏差的平方的平均值。数据的分散程度越大,方差就越大,并且方差与均值相关,它反映了数据相对于均值的分散情况。
### 4.2 标准差的概念
标准差是从方差推导而来的,它表示每个值与均值的距离。标准差的计算很简单,就是方差的平方根。标准差和方差都反映了数据集中的变异性,但它们的单位有很大差异。
### 4.3 方差与标准差的比较
- **单位差异**:标准差的单位与原始数据相同,例如在分析术后住院天数时,标准差的单位是“天数”;而方差的单位是原始数据单位的平方,因此方差更难直观解释。
- **信息含量**:虽然标准差更容易理解,但方差在描述变异性方面更具信息含量,因此在进行统计推断时,通常需要使用方差。
### 4.4 计算示例
以6位在心脏手术前采用西兰花饮食方案的患者的术后住院天数为例,数据集为`7, 12, 32, 10, 9, 8`。计算过程如下:
1. 计算均值:
0
0
复制全文
相关推荐










