统计中的精度、准确性与集中趋势指标

# 统计中的精度、准确性与集中趋势指标 ## 1. 软件与R包准备在开始统计分析前，需要下载并安装基础R和R Studio。本章所需的R包为`tidyverse`，可从以下链接下载： - `tidyverse`：[http://tidyverse.tidyverse.org](http://tidyverse.tidyverse.org) 示例数据集`MMstat.csv`以及本章的脚本`Chapter 6. Precision.R`和额外的补充文件`Sampledistribution.csv`，可从以下链接下载： [https://github.com/mmlondon77/Biobook.git](https://github.com/mmlondon77/Biobook.git) ## 2. 精度的概念在统计学中，精度指的是随机样本的点估计值（如样本均值）与真实（未知）总体的点估计值（总体均值）的接近程度。由于无法测量世界上每个人的某些变量（如身高、年龄等），所以通常会抽取随机样本。从总体（N）中抽取随机样本（n）时，样本n的均值是总体N真实均值的最佳猜测，但n只是N的近似，永远不会完全相同。在抽样过程中，不可避免地会存在误差，这个误差被称为均值的标准误差（Standard Error of the Mean，简称SEM或SE）。随着样本量的增加，精度也会提高，这在理论上与中心极限定理类似。例如，示例数据集中的`Age`变量可代表样本n，它是未知总体年龄N的最佳猜测。 ## 3. 样本量与精度的关系 ### 3.1 模拟抽样实验为了展示样本量与精度的关系，我们回到正态分布。以下是模拟过程： 1. 生成一个均值为90、标准差为5的正态分布： ```R x <- rnorm(10000, mean=90, sd=5) ``` 2. 抽取样本量为10的随机样本，并计算40个这样的样本的均值，构建`sample10`对象： ```R sample10<-c(90.6, 89, 89, 89.7, 91.5, 89.4, 86.9, 89.2, 89.7, 91.8, 88.7, 88.2, 87.11, 91.2, 91.2, 87.6, 88.9, 91.3, 88.7, 90.4, 89, 90.6, 90, 91.9, 89.3, 91.3, 89.6, 89, 88.1, 89.5, 91.8, 89.7, 88.4, 87.8, 90.1, 89.6, 89.6, 90.7, 89.6, 90.7) ``` `sample10`的总体均值为89.6，标准差为1.3。 3. 抽取样本量为1000的随机样本，计算24个这样的样本的均值，构建`sample1000`对象： ```R sample1000<-c(89.9, 90, 90.2, 90.1, 89.7, 89.8, 90, 89.9, 89.7, 89.8, 90.1, 89.8, 90, 90, 89.9, 90, 90, 90, 89.8, 89.9, 89.8, 89.9, 89.6) ``` `sample1000`的总体均值为89.9，标准差为0.1。 ### 3.2 可视化样本分布通过绘制直方图和密度曲线来直观展示样本的分布情况： ```R truehist(sample10, ylim=c(0, 3)) lines(density(sample10)) truehist(sample1000, ylim=c(0,3), xlim=c(85, 93)) lines(density(sample1000)) ``` 从图中可以明显看出，较大样本`sample1000`的变异性明显小于较小样本`sample10`，且两个分布的均值相近。这清晰地表明了样本量越大，越接近真实总体，同时也凸显了可视化分布的重要性。 ### 3.3 使用ggplot2绘制密度分布图将两个样本的所有值整理到一个长格式的`.csv`文件`Sampledistribution.csv`中，使用`ggplot2`绘制密度分布图： ```R ggplot(Sampledistribution, aes(mean, fill =Sample)) + geom_density(alpha = 0.2) ``` 这个密度分布图再次展示了两个样本分布的不同变异性，说明更多的数据意味着更小的变异性，更接近科学真理。 ## 4. 方差与标准差 ### 4.1 方差的概念方差是衡量数据变异性的重要指标，它表示数据集中数据的分散程度。方差的计算方法是取每个数据点与均值的偏差的平方的平均值。数据的分散程度越大，方差就越大，并且方差与均值相关，它反映了数据相对于均值的分散情况。 ### 4.2 标准差的概念标准差是从方差推导而来的，它表示每个值与均值的距离。标准差的计算很简单，就是方差的平方根。标准差和方差都反映了数据集中的变异性，但它们的单位有很大差异。 ### 4.3 方差与标准差的比较 - **单位差异**：标准差的单位与原始数据相同，例如在分析术后住院天数时，标准差的单位是“天数”；而方差的单位是原始数据单位的平方，因此方差更难直观解释。 - **信息含量**：虽然标准差更容易理解，但方差在描述变异性方面更具信息含量，因此在进行统计推断时，通常需要使用方差。 ### 4.4 计算示例以6位在心脏手术前采用西兰花饮食方案的患者的术后住院天数为例，数据集为`7, 12, 32, 10, 9, 8`。计算过程如下： 1. 计算均值：

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

统计中的精度、准确性与集中趋势指标

相关推荐

专栏目录

统计中的精度、准确性与集中趋势指标

相关推荐

可靠性试验数据处理方法与工程实现

教育统计与测量练习试题库与答案.doc

第-章-误差与数据处理优秀文档.ppt

掌握偶然误差的四大统计特性：分布规律与精度衡量

生物统计学中的精度、准确性与相关性分析

声学测量中的3dB带宽：提升测量精度与结果准确性的关键因素

【精度验证秘籍】：FLUKE_8845A_8846A的重复性与准确性验证技巧

E5071B测量数据统计分析：提高可靠性与精度的技巧

【ARCSWAT精度评估指南】：识别误差源头与提升模型准确性的策略

【WINCC数据精度】：输入输出域单位设置与数据准确性的深度掌握

PHP - pack/unpack「字符串/二进制字符串」- 学习/实践

driver-1.53.0.jar中文-英文对照文档.zip

专栏目录

最新推荐

分形分析与随机微分方程：理论与应用

数据提取与处理：字符、字节和字段的解析

Web开发实用技巧与Perl服务器安装使用指南

前端交互效果与Perl服务器安装指南

零售销售数据的探索性分析与DeepAR模型预测

数据处理与自然语言编码技术详解

身份伪造风险预警：University of Connecticut.rar中的证书文件隐患分析

编程挑战：uniq与findr实现解析

碳纳米管在摩擦学应用中的最新进展

人工智能的组织、社会和伦理影响管理