数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。
1. 特征类型
数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。
标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。
- 标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。
- 二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。
- 序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。
- 数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。
2. 特征的相关性度量
评估一个属性的值如何随另一个变化:
- 标称属性:使用 χ 2 \chi^2 χ2检验;
- 数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。
2.1 χ 2 \chi^2 χ2检验
假设标称属性 A A A有 c c c个不同值 a 1 , a 2 , . . . , a c a_1,a_2,...,a_c a1,a2,...,ac, B B B有 r r r个不同值 b 1 , b 2 , . . . , b r b_1,b_2,...,b_r b1,b2,...,br。
A
A
A和
B
B
B描述的数据元组可以用一个相依表显示,
(
A
i
,
B
j
)
(A_i,B_j)
(Ai,Bj)表示
(
A
=
a
i
,
B
=
b
j
)
(A=a_i,B=b_j)
(A=ai,B=bj)的联合事件,每个可能的联合事件都在表中有自己的单元。
χ
2
=
∑
i
=
1
c
∑
j
=
1
r
(
o
i
j
−
e
i
j
)
2
e
i
j
\chi^2=\sum_{i=1}^{c}\sum_{j=1}^{r} \frac {{(o_{ij}-e_{ij})}^2}{e_{ij}}
χ2=i=1∑cj=1∑reij(oij−eij)2
其中, o i j o_{ij} oij是联合事件 ( A i , B j ) (A_i,B_j) (Ai,Bj)的观察频度(实际计数),而 e i j e_{ij} eij是 ( A i , B j ) (A_i,B_j) (Ai,Bj)的期望频度。
e i j = c o u n t ( A = a i ) × c o u n t ( B = b j ) n e_{ij} = \frac {count(A=a_i) \times count(B=b_j)} {n} eij=ncount(A=ai)×count(B=bj)
χ 2 \chi^2 χ2统计检验假设 A A A和 B B B是独立的。检验基于显著水平,具有自由度 ( r − 1 ) × ( c − 1 ) (r-1) \times (c-1) (r−1)×(c−1)。如果可以拒绝该假设(拒绝假设的值由 χ 2 \chi^2 χ2分布上百分点表给出),则 A A A和 B B B是统计相关的。
爱好\性别 | 男 | 女 | 合计 |
---|---|---|---|
武侠小说 | 250(90) | 200(360) | 450 |
爱情小说 | 50(210) | 1000(840) | 1050 |
合计 | 300 | 1200 | 1500 |
期望频率根据两个属性的数据分布计算,如 e i j = c o u n t ( 男 ) × c o u n t ( 小 说 ) n = 300 × 450 1500 = 90 e_{ij} = \frac {count(男) \times count(小说)} {n} = \frac {300 \times 450} {1500} = 90 eij=ncount(男)×count(小说)=1500300×450=90
χ 2 = ( 250 − 90 ) 2 90 + ( 50 − 210 ) 2 210 + ( 200 − 360 ) 2 360 + ( 1000 − 840 ) 2 840 = 284.44 + 121.90 + 71.11 + 30.48 = 507.93 \chi^2 = \frac {(250-90)^2}{90} + \frac {(50-210)^2}{210} + \frac {(200-360)^2}{360} + \frac {(1000-840)^2}{840}=284.44+121.90+71.11+30.48 = 507.93 χ2=90(250−90)2+210(50−210)2+360(200−360)2+840(1000−840)2=284.44+121.90+71.11+30.48=507.93
对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于 χ 2 = 507.93 > 10.828 \chi^2 = 507.93>10.828 χ2=507.93>10.828可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。
2.2 Pearson 系数
数值属性 A A A和 B B B的Pearson积矩系数(Pearson’s product moment coefficient) r A , B = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) n σ A σ B = ∑ i = 1 n ( a i b i ) − n A ‾ B ‾ n σ A σ B r_{A,B} = \frac {\sum_{i=1}^{n}(a_i - \overline{A})(b_i - \overline{B})}{n \sigma_A \sigma_B} = \frac {\sum_{i=1}^{n}(a_i b_i) - n \overline{A} \overline{B}}{n \sigma_A \sigma_B} rA,B=nσAσB∑i=1n(ai−A)(bi−B)=nσAσB∑i=1n(aibi)−nAB
其中,
a
i
a_i
ai和
b
i
b_i
bi分别是元组
i
i
i在属性
A
A
A和
B
B
B上的值,
A
‾
\overline{A}
A 和
B
‾
\overline{B}
B分别是的均值:
A
‾
=
E
(
A
)
=
∑
i
=
1
n
a
i
n
\overline{A} = E(A) = \frac {\sum_{i=1}^{n}a_i}{n}
A=E(A)=n∑i=1nai
B
‾
=
E
(
B
)
=
∑
i
=
1
n
b
i
n
\overline{B} = E(B) = \frac {\sum_{i=1}^{n}b_i}{n}
B=E(B)=n∑i=1nbi
σ
A
\sigma_A
σA和
σ
B
\sigma_B
σB分别是
A
A
A和
B
B
B的标准差:
σ
A
=
1
n
∑
i
=
1
n
(
a
i
−
A
‾
)
2
\sigma_A = \sqrt {\frac {1}{n} \sum_{i=1}^{n}(a_i - \overline{A})^2}
σA=n1i=1∑n(ai−A)2
σ
B
=
1
n
∑
i
=
1
n
(
a
i
−
B
‾
)
2
\sigma_B = \sqrt {\frac {1}{n} \sum_{i=1}^{n}(a_i - \overline{B})^2}
σB=n1i=1∑n(ai−B)2
∑ i = 1 n ( a i b i ) \sum_{i=1}^{n}(a_i b_i) ∑i=1n(aibi)是 A B AB AB叉积和(即对于每个元组,A的值乘以该元组B的值)。
− 1 ≤ r A , B ≤ 1 -1 \leq r_{A,B} \leq 1 −1≤rA,B≤1:
- r A , B > 0 r_{A,B}>0 rA,B>0: A A A和 B B B正相关, A A A的值随着 B B B的值增加而增加。
- r A , B < 0 r_{A,B}<0 rA,B<0: A A A和 B B B负相关, A A A的值随着 B B B的值增加而减少。
- r A , B = 0 r_{A,B}=0 rA,B=0: A A A和 B B B不相关, A A A和 B B B相互独立。
相关性并不蕴含因果关系,即 A A A和 B B B是相关的,并不意味着 A A A导致 B B B或 B B B导致 A A A。
2.3 协方差
数值属性 A A A和 B B B的协方差(covariance): C o v ( A , B ) = E ( ( A − A ‾ ) ( B − B ‾ ) ) = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) n Cov(A,B) = E((A- \overline A)(B - \overline B)) = \frac {\sum_{i=1}^{n}(a_i- \overline A)(b_i - \overline B)}{n} Cov(A,B)=E((A−A)(B−B))=n∑i=1n(ai−A)(bi−B)可以证明 C o v ( A , B ) = E ( A ⋅ B ) − A ‾ B ‾ Cov(A,B) = E(A \cdot B) - \overline A \overline B Cov(A,B)=E(A⋅B)−AB
- 如果 A A A和 B B B趋于一起改变,则 A A A和 B B B的协方差为正;否则为负。
- 如果 A A A和 B B B是相互独立的,则 E ( A ⋅ B ) = E ( A ) ⋅ E ( B ) E(A \cdot B) = E(A) \cdot E(B) E(A⋅B)=E(A)⋅E(B) 协方差为0,不具有相关性。
2.4 相关与相互独立
- 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
- 相互独立必不相关:
- 不相关并非相互独立
- 不相关可能独立
- 不相关可能不独立
- 对于服从二维正态分布的随机变量:不相关等价于相互独立