Machine Learning-L2-数据特征

数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。

1. 特征类型

数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。

标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。

  • 标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。
  • 二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。
  • 序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。
  • 数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。

2. 特征的相关性度量

评估一个属性的值如何随另一个变化:

  • 标称属性:使用 χ 2 \chi^2 χ2检验;
  • 数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。

2.1 χ 2 \chi^2 χ2检验

假设标称属性 A A A c c c个不同值 a 1 , a 2 , . . . , a c a_1,a_2,...,a_c a1,a2,...,ac B B B r r r个不同值 b 1 , b 2 , . . . , b r b_1,b_2,...,b_r b1,b2,...,br

A A A B B B描述的数据元组可以用一个相依表显示, ( A i , B j ) (A_i,B_j) (Ai,Bj)表示 ( A = a i , B = b j ) (A=a_i,B=b_j) (A=ai,B=bj)的联合事件,每个可能的联合事件都在表中有自己的单元。
χ 2 = ∑ i = 1 c ∑ j = 1 r ( o i j − e i j ) 2 e i j \chi^2=\sum_{i=1}^{c}\sum_{j=1}^{r} \frac {{(o_{ij}-e_{ij})}^2}{e_{ij}} χ2=i=1cj=1reij(oijeij)2

其中, o i j o_{ij} oij是联合事件 ( A i , B j ) (A_i,B_j) (Ai,Bj)的观察频度(实际计数),而 e i j e_{ij} eij ( A i , B j ) (A_i,B_j) (Ai,Bj)的期望频度。

e i j = c o u n t ( A = a i ) × c o u n t ( B = b j ) n e_{ij} = \frac {count(A=a_i) \times count(B=b_j)} {n} eij=ncount(A=ai)×count(B=bj)

χ 2 \chi^2 χ2统计检验假设 A A A B B B是独立的。检验基于显著水平,具有自由度 ( r − 1 ) × ( c − 1 ) (r-1) \times (c-1) (r1)×(c1)。如果可以拒绝该假设(拒绝假设的值由 χ 2 \chi^2 χ2分布上百分点表给出),则 A A A B B B是统计相关的。

爱好\性别合计
武侠小说250(90)200(360)450
爱情小说50(210)1000(840)1050
合计30012001500

期望频率根据两个属性的数据分布计算,如 e i j = c o u n t ( 男 ) × c o u n t ( 小 说 ) n = 300 × 450 1500 = 90 e_{ij} = \frac {count(男) \times count(小说)} {n} = \frac {300 \times 450} {1500} = 90 eij=ncount()×count()=1500300×450=90

χ 2 = ( 250 − 90 ) 2 90 + ( 50 − 210 ) 2 210 + ( 200 − 360 ) 2 360 + ( 1000 − 840 ) 2 840 = 284.44 + 121.90 + 71.11 + 30.48 = 507.93 \chi^2 = \frac {(250-90)^2}{90} + \frac {(50-210)^2}{210} + \frac {(200-360)^2}{360} + \frac {(1000-840)^2}{840}=284.44+121.90+71.11+30.48 = 507.93 χ2=90(25090)2+210(50210)2+360(200360)2+840(1000840)2=284.44+121.90+71.11+30.48=507.93

对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于 χ 2 = 507.93 > 10.828 \chi^2 = 507.93>10.828 χ2=507.93>10.828可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。

2.2 Pearson 系数

数值属性 A A A B B B的Pearson积矩系数(Pearson’s product moment coefficient) r A , B = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) n σ A σ B = ∑ i = 1 n ( a i b i ) − n A ‾ B ‾ n σ A σ B r_{A,B} = \frac {\sum_{i=1}^{n}(a_i - \overline{A})(b_i - \overline{B})}{n \sigma_A \sigma_B} = \frac {\sum_{i=1}^{n}(a_i b_i) - n \overline{A} \overline{B}}{n \sigma_A \sigma_B} rA,B=nσAσBi=1n(aiA)(biB)=nσAσBi=1n(aibi)nAB

其中, a i a_i ai b i b_i bi分别是元组 i i i在属性 A A A B B B上的值, A ‾ \overline{A} A B ‾ \overline{B} B分别是的均值:
A ‾ = E ( A ) = ∑ i = 1 n a i n \overline{A} = E(A) = \frac {\sum_{i=1}^{n}a_i}{n} A=E(A)=ni=1nai B ‾ = E ( B ) = ∑ i = 1 n b i n \overline{B} = E(B) = \frac {\sum_{i=1}^{n}b_i}{n} B=E(B)=ni=1nbi

σ A \sigma_A σA σ B \sigma_B σB分别是 A A A B B B的标准差:
σ A = 1 n ∑ i = 1 n ( a i − A ‾ ) 2 \sigma_A = \sqrt {\frac {1}{n} \sum_{i=1}^{n}(a_i - \overline{A})^2} σA=n1i=1n(aiA)2 σ B = 1 n ∑ i = 1 n ( a i − B ‾ ) 2 \sigma_B = \sqrt {\frac {1}{n} \sum_{i=1}^{n}(a_i - \overline{B})^2} σB=n1i=1n(aiB)2

∑ i = 1 n ( a i b i ) \sum_{i=1}^{n}(a_i b_i) i=1n(aibi) A B AB AB叉积和(即对于每个元组,A的值乘以该元组B的值)。

− 1 ≤ r A , B ≤ 1 -1 \leq r_{A,B} \leq 1 1rA,B1

  • r A , B > 0 r_{A,B}>0 rA,B>0: A A A B B B正相关, A A A的值随着 B B B的值增加而增加。
  • r A , B < 0 r_{A,B}<0 rA,B<0 A A A B B B负相关, A A A的值随着 B B B的值增加而减少。
  • r A , B = 0 r_{A,B}=0 rA,B=0 A A A B B B不相关, A A A B B B相互独立。

相关性并不蕴含因果关系,即 A A A B B B是相关的,并不意味着 A A A导致 B B B B B B导致 A A A

2.3 协方差

数值属性 A A A B B B的协方差(covariance): C o v ( A , B ) = E ( ( A − A ‾ ) ( B − B ‾ ) ) = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) n Cov(A,B) = E((A- \overline A)(B - \overline B)) = \frac {\sum_{i=1}^{n}(a_i- \overline A)(b_i - \overline B)}{n} Cov(A,B)=E((AA)(BB))=ni=1n(aiA)(biB)可以证明 C o v ( A , B ) = E ( A ⋅ B ) − A ‾ B ‾ Cov(A,B) = E(A \cdot B) - \overline A \overline B Cov(A,B)=E(AB)AB

  • 如果 A A A B B B趋于一起改变,则 A A A B B B的协方差为正;否则为负。
  • 如果 A A A B B B是相互独立的,则 E ( A ⋅ B ) = E ( A ) ⋅ E ( B ) E(A \cdot B) = E(A) \cdot E(B) E(AB)=E(A)E(B) 协方差为0,不具有相关性。

2.4 相关与相互独立

  • 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
  • 相互独立必不相关:
  • 不相关并非相互独立
    • 不相关可能独立
    • 不相关可能不独立
    • 对于服从二维正态分布的随机变量:不相关等价于相互独立
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

隐私无忧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值