Udacity课程脉络-统计学基础(五)-相关性 Corelation

本文探讨了一变量与两变量分析的区别,重点介绍了如何通过散点图观察变量x和y之间的关系,以及使用相关系数衡量两者间的强弱关系。文中详细解释了如何进行显著性分析以判断相关性是否由偶然引起,并介绍了ρ置信区间的计算方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

本章目录如下:

  • 相关性
    • One variable vs Two variable
    • The variables x and y
    • Stronger relationship (如何衡量相关性)
    • 相关系数(corelation coefficient)
    • 显著性分析(Hypothesis testing for ρ\rhoρ)
    • ρ\rhoρ置信区间 (CI for ρ\rhoρ)

One variable vs Two variable

之前学习的诸如Z, T, F分布都是基于一个变量(one variable)来分析显著性,涉及到的概念有σ ,μ ,x‾\overline{x}x 等。
one-variable

本章我们关注的是如何分析两个变量(two variables),从而引出相关性概念。

two-variables

举个栗子:
two-variables examples

The variables x and y

xy

xy之间的关系通过散点图(scatter plot)来体现。
scatter plot

Stronger relationship

stronger relationship

相关系数(corelation coefficient)

下面的截图已经说清楚了,我就不多言了。

相关系数

r = 1 和 r = -1 的具体?,可以看出所有的散点没有偏离,都落在同一条直线上:
r=1

r=-1

可通过googlesheet或Excel对散点图计算相关性:
googlesheet

显著性分析 ρ\rhoρ

尽管我们得出了相关性系数,但是这种基于样本的推断结果也有可能是偶发的(之前我们发生过样本均值和总体均值实际上差异很大)。这正是我们需要对相关性系数做显著性分析的原因。

:我们是显著性分析针对的是总体而非样本
ρ\rhoρ: 变量在总体(population)中的相关性 (corelation between variables in the population)
r: 变量在样本(sample)中的相关性(如之前图中所示) strength of relation ship

首先我们找出零假设和备择假设,计算基于t分布

p

ρ\rhoρ置信区间 (CI for ρ\rhoρ)
CI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值