前言
本章目录如下:
- 相关性
- One variable vs Two variable
- The variables x and y
- Stronger relationship (如何衡量相关性)
- 相关系数(corelation coefficient)
- 显著性分析(Hypothesis testing for ρ\rhoρ)
- ρ\rhoρ置信区间 (CI for ρ\rhoρ)
One variable vs Two variable
之前学习的诸如Z, T, F分布都是基于一个变量(one variable)来分析显著性,涉及到的概念有σ ,μ ,x‾\overline{x}x 等。
本章我们关注的是如何分析两个变量(two variables),从而引出相关性概念。
举个栗子:
The variables x and y
xy之间的关系通过散点图(scatter plot)来体现。
Stronger relationship
相关系数(corelation coefficient)
下面的截图已经说清楚了,我就不多言了。
r = 1 和 r = -1 的具体?,可以看出所有的散点没有偏离,都落在同一条直线上:
可通过googlesheet或Excel对散点图计算相关性:
显著性分析 ρ\rhoρ
尽管我们得出了相关性系数,但是这种基于样本的推断结果也有可能是偶发的(之前我们发生过样本均值和总体均值实际上差异很大)。这正是我们需要对相关性系数做显著性分析的原因。
注:我们是显著性分析针对的是总体而非样本
ρ\rhoρ: 变量在总体(population)中的相关性 (corelation between variables in the population)
r: 变量在样本(sample)中的相关性(如之前图中所示) strength of relation ship
首先我们找出零假设和备择假设,计算基于t分布
ρ\rhoρ置信区间 (CI for ρ\rhoρ)