统计学-——基于R 第六章课后习题 假设检验

本文通过实例解析了R语言在Q-Q图、正态性检验、均值检验、效应量计算等方面的应用,包括零件误差分布、金属板重量、培训效果比较、化肥差异和比例测试。展示了如何使用Shapiro-Wilk和Kolmogorov-Smirnov检验,以及t检验、Cohen's d和配对样本t检验来评估数据的正态性和均值差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

 

6.1(1)Q-Q图 

> exercise6_1<-read.csv("D:/289250《统计学—基于R》(第4版)—例题和习题数据/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap06/exercise6_1.csv")  #导入exercise6_1文件
> par(mai=c(0.6,0.6,0.1,0.1),cex=0.7,mgp=c(2,1,0))
> qqnorm(exercise6_1$零件误差,xlab="理论分位数",ylab="样本分位数",main="")  #绘制Q-Q点
> qqline(exercise6_1$零件误差,col="red",lwd=2)  #添加Q-Q线
> par(fig=c(0.08,0.55,0.55,0.96),new=TRUE)   #设置图形位置
> hist(exercise6_1$零件误差,xlab="零件误差",ylab="",ylim=c(0,2.37),freq=FALSE,col="lightblue",cex.axis=0.7,cex.lab=0.7,main="")  #绘制直方图
> lines(density(exercise6_1$零件误差),col="red")  #添加核密度曲线
> box(col="grey80")  #添加盒子

 

答:由图可知,各点并非在理论正态分布直线周围随机分布,且观测值越大或越小,越偏离理论正态分布,所以零件尺寸的绝对误差不服从正态分布

(2)一个总体均值的检验(大样本)

假设H0>=1.35;H1<1.35

> library(lattice)
> library(BSDA)
> z.test(exercise6_1$零件误差,mu=1.35,sigma.x=sd(exercise6_1$零件误差),alternative="less",conf.level=0.99)

	One-sample z-Test

data:  exercise6_1$零件误差
z = -2.6061, p-value = 0.004579
alternative hypothesis: true mean is less than 1.35
99 percent confidence interval:
      NA 1.33553
sample estimates:
mean of x 
   1.2152 

 答:平均数=1.2152,z=-2.6061, P = 0.004579,P<0.05,拒绝H0,有证据显示新机床加工零件尺寸的平均误差与旧机床相比有显著降低

 6.2

(1)

           H0:服从正态分布

           H1:不服从正态分布

Shapiro-Wilk正态性检验

> exercise6_2<-read.csv("D:/289250《统计学—基于R》(第4版)—例题和习题数据/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap06/exercise6_2.csv")
> shapiro.test(exercise6_2$重量)

	Shapiro-Wilk normality test

data:  exercise6_2$重量
W = 0.97064, p-value = 0.7684

 答:W = 0.97064, P = 0.7684,P>0.05,不拒绝原假设,没有证据显示该企业生产的金属板的重量服从正态分布

K-S正态性检验

> ks.test(exercise6_2$重量,"pnorm",mean(exercise6_2$重量),sd(exercise6_2$重量))

	One-sample Kolmogorov-Smirnov test

data:  exercise6_2$重量
D = 0.10808, p-value = 0.9539
alternative hypothesis: two-sided

 答:D = 0.10808, P = 0.9539,P>0.05,不拒绝原假设,没有证据显示该企业生产的金属板的重量服从正态分布

(2)H0:μ=25;H1:μ≠25

一个总体均值的检验(小样本)

> t.test(exercise6_2$重量,mu=25)

	One Sample t-test

data:  exercise6_2$重量
t = 1.0399, df = 19, p-value = 0.3114
alternative hypothesis: true mean is not equal to 25
95 percent confidence interval:
 24.48352 26.53648
sample estimates:
mean of x 
    25.51 

 答:x=25.51,t = 1.0399, df = 19, P = 0.3114,由于P>0.05,不拒绝H0,没有证据显示该企业生产的金属板符合要求

(3)计算单样本t检验的效应量

> cohensD(exercise6_2$重量,mu=25)
[1]0.2325298

答:平均重量与标准重量相差0.2325298个标准差,该结果属于中的效应量

6.3 配对样本t检验效应量

H0:μ1-μ2=0;H2:μ1-μ2≠0

> exercise6_3<-read.csv("D:/289250《统计学—基于R》(第4版)—例题和习题数据/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap06/exercise6_3.csv")
> library(lsr)
> cohensD(exercise6_3$看前,exercise6_3$看后,method="paired")
[1] 0.4798574

答:结果显示,d=0.4798574,根据Cohen准则,该检验结果属于中的效应量

6.5 

(1)两个总体均值之差的检验(独立小样本)

H0:μ1-μ2=0;H2:μ1-μ2≠0

> exercise6_4<-read.csv("D:/289250《统计学—基于R》(第4版)—例题和习题数据/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap06/exercise6_4.csv")
> #假设总体方差相等
> t.test(exercise6_4$方法1,exercise6_4$方法2,var.equal=TRUE)

	Two Sample t-test

data:  exercise6_4$方法1 and exercise6_4$方法2
t = -5.8927, df = 28, p-value = 2.444e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -12.128568  -5.871432
sample estimates:
mean of x mean of y 
 47.73333  56.73333 

> #假设总体方差不相等
> t.test(exercise6_4$方法1,exercise6_4$方法2,var.equal=FALSE)

	Welch Two Sample t-test

data:  exercise6_4$方法1 and exercise6_4$方法2
t = -5.8927, df = 27.639, p-value = 2.568e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -12.130411  -5.869589
sample estimates:
mean of x mean of y 
 47.73333  56.73333 

答:在该项检验中,x方法1=47.73333,x方法2=56.73333,假设总体方差相等时,t = -5.8927, df = 28, P = 2.444e-06;假设总体方差不等时,t = -5.8927, df = 27.639, P = 2.568e-06。两种假设条件下检验的P值均小于0.05,所以拒绝H0,两家培训效果有显著差异

(3)独立样本t检验的效应量

> library(lsr)
> cohensD(exercise6_4$方法1,exercise6_4$方法2)
[1] 2.151704

答:结果显示,d=2.151704,表示方法1与方法2的培训效果相差2.151704个标准差,根据Cohen准则,该结果属于大的效应量

6.5 一个总体比例的检验

H0:<=17%;H1>17%

> n<-550
> p<-115/550
> pi0<-0.17
> z<-(p-pi0)/sqrt(pi0*(1-pi0)/n)
> p_value<-1-pnorm(z)
> data.frame(z,p_value)
         z     p_value
1 2.440583 0.007331785

 答:在该项检验中,z=2.440583 P=0.007331785,由于P<0.05,拒绝H0,因此生产商的说法属实

6.6 两个总体比例只差的检验

H0:π1-π2>=0;π1-π2<0

> n1<-100;n2<-95
> p1<-24/100;p2<-39/95
> p<-(p1*n1+p2*n2)/(n1+n2)
> z<-(p1-p2)/sqrt(p*(1-p)*(1/n1+1/n2))
> p_value<-pnorm(z)
> data.frame(z,p_value)
          z    p_value
1 -2.545149 0.00546155

 答:在此检验中,z=-2.545149 P=0.00546155,由于P<0.05,拒绝H0,即男女比例成功的人数有显著差异

6.7 两个总体均值之差的检验(配对样本)

(1)H0:μ1-μ2=0;H2:μ1-μ2≠0

> exercise6_7<-read.csv("D:/289250《统计学—基于R》(第4版)—例题和习题数据/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap06/exercise6_7.csv")
> t.test(exercise6_7$旧肥料,exercise6_7$新肥料,var.equal=TRUE)

	Two Sample t-test

data:  exercise6_7$旧肥料 and exercise6_7$新肥料
t = -5.4271, df = 38, p-value = 3.474e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -12.631742  -5.768258
sample estimates:
mean of x mean of y 
    100.7     109.9 

答:旧肥料=100.7 ,新肥料=109.9 ,总体方差相等时,t = -5.4271, df = 38, P = 3.474e-06,P<0.05,拒绝H0,新肥料显著高于旧肥料

(2)两个总体方差比的检验

> var.test(exercise6_7[,1],exercise6_7[,2],alternative="two.sided")

	F test to compare two variances

data:  exercise6_7[, 1] and exercise6_7[, 2]
F = 0.72294, num df = 19, denom df = 19, p-value
= 0.4862
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2861488 1.8264749
sample estimates:
ratio of variances 
          0.722941 

答:s1平方/s2平方=0.722941, F = 0.72294, df1 = 19, df2 = 19, P=0.4862,P>0.05,不拒绝H0,没有证据显示两种化肥有显著差异

(3)配对样本t检验的效应量

> cohensD(exercise6_7$旧肥料,exercise6_7$新肥料,method="paired")
[1] 1.044093

答:结果显示d=1.044093,根据Cohen准则,该检验结果属于大的效应量 

6.8 

H0:无差异;H1:有差异 

> exercise6_8<-read.csv("D:/289250《统计学—基于R》(第4版)—例题和习题数据/《统计学—基于R》(第4版)—例题和习题数据(公开资源)/exercise/chap06/exercise6_8.csv")
> var.test(exercise6_8[,1],exercise6_8[,2],alternative="two.sided")

	F test to compare two variances

data:  exercise6_8[, 1] and exercise6_8[, 2]
F = 9.0711, num df = 23, denom df = 23, p-value =
1.477e-06
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
  3.924078 20.969026
sample estimates:
ratio of variances 
          9.071058 

答:P=1.477e-06,P<0.05,拒绝H0,两部机器生产的袋茶重量的方差存在差异 

 

 

 

<think>嗯,用户问的是贾俊平统计学基于Python的第二章课后习题怎么做。首先,我需要明确第二章具体讲什么内容。贾俊平的统计学教材可能有不同版本,但通常第二章应该是数据整理与展示,比如数据的预处理、频数分布表、图表绘制等。 用户可能需要知道如何处理数据,用Python进行数据清洗、分组,然后生成相应的图表,比如直方图、条形图、饼图等。还有可能涉及描述性统计量的计算,比如平均数、中位数、众数等。不过要确认是第二章的具体内容,可能需要回忆教材的结构。 用户身份可能是学生,刚学统计学,使用Python来完成课后作业。他们可能对Python的数据处理库如Pandas和可视化库如Matplotlib或Seaborn不熟悉,需要步骤指导。 需要分步骤讲解,比如数据导入、数据清洗、分组、制作频数分布表、绘制图表,可能还要计算统计量。同时要提醒常见的错误,比如分组间隔的选择,图表标签的设置等。 另外,用户可能希望看到具体的代码示例,比如如何用Python生成直方图,如何用Pandas计算频数分布。可能需要举一个例子,比如课本中的例数据,然后展示代码和结果。 还要注意Python语法是否正确,比如使用value_counts()函数,或者cut函数进行分组。同时,确保用户知道如何安装必要的库,比如pandas、matplotlib。 可能遇到的问包括数据类型的转换,比如字符串转数值,处理缺失值,分组时的边界问。这些需要在解答中提到,并提供解决方法。 最后,要建议用户遇到具体目时提供更多细节,比如数据格式或目要求,以便更针对性地帮助解决问。</think>贾俊平《统计学》第二章(数据可视化与数据分布)课后习题结合Python的实现思路可分为以下步骤: ━━━━━━━━━━━━━━ 一、知识准备阶段 1. 明确章节核心知识点: • 数据预处理:缺失值处理、数据排序 • 品质数据:频数分布表、条形图、饼图 • 数值数据:直方图、茎叶图、箱线图 • 表格与图形选择原则 2. Python工具准备: ```python import pandas as pd import matplotlib.pyplot as plt import seaborn as sns ``` ━━━━━━━━━━━━━━ 二、典型习题实现模板 ▶️ 案例:频数分布表与直方图 假设数据:30名学生成绩(存储于scores.csv) 1. 数据加载与预处理: ```python df = pd.read_csv('scores.csv') df['score'] = pd.to_numeric(df['score'], errors='coerce') # 处理非数值 df.dropna(inplace=True) # 删除缺失值 ``` 2. 制作频数分布表: ```python bins = [0, 60, 70, 80, 90, 100] labels = ['不及格','及格','中','良','优'] freq = pd.cut(df['score'], bins=bins, labels=labels).value_counts().sort_index() print(freq) ``` 3. 绘制直方图: ```python plt.figure(figsize=(10,6)) plt.hist(df['score'], bins=10, edgecolor='black') plt.title('成绩分布直方图') plt.xlabel('分数区间') plt.ylabel('频数') plt.grid(True, linestyle='--') plt.show() ``` ━━━━━━━━━━━━━━ 三、常见型解决方案 1. 品质数据可视化: ```python # 条形图 df['major'].value_counts().plot(kind='bar') # 饼图 df['gender'].value_counts().plot(kind='pie', autopct='%1.1f%%') ``` 2. 数值数据分布分析: ```python # 箱线图 sns.boxplot(x=df['income']) # 茎叶图(Python需自定义实现) def stem_plot(data): for num in sorted(data): stem, leaf = divmod(num,10) print(f"{stem:2} | {leaf}") ``` ━━━━━━━━━━━━━━ 四、注意事项 1. 分组关键点: • 组距不宜过宽或过窄 • 使用`pd.cut()`时设置`right=False`可实现左闭右开区间 2. 可视化优化原则: ```python plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文显示 plt.rcParams['axes.unicode_minus'] = False # 解决负号显示 ``` ━━━━━━━━━━━━━━ 五、调试建议 当遇到问时: 1. 使用`df.info()`检查数据类型 2. 用`df.describe()`查看数值分布 3. 通过`df.sample(5)`随机抽样验证数据 建议提供具体目要求及数据样例,可给出更针对性的代码实现方案。例如处理时间序列数据时,需特别注意日期格式转换: ```python df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d') ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值