目录标题
往往数据和特征决定了结果的上限,模型与算法决定了结果的下限。
数据类型:
- 结构化数据(表)
- 非结构化数据(图像、语音、文本等)
1、为什么要对特征做归一化
为了消除数据特征的量纲影响,使得不同特征之间具有可比性。
例如一个人的身高与体重对健康的影响。m与kg做单位,1.4-1.9与40-100kg范围。如果不做归一化,结果会倾向于数值差别比较大的体重特征。
想要得到更为准确的结果,所以会做归一化,使得各指标处于同一数值量级,方便分析
2、对特征归一化的方法
2.1 线性函数归一化
它对原始数据进行线性变换,使结果映射到[0, 1]的范围,实现对原始数据的等比缩放。归一化公式如下:
2.2 零均值归一化
它会将原始数据映射到均值为
0、标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么归一化公式定义为
3、对数据预处理时,如何处理类别型特征
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。
3.1 序号编码
序号编码通常用于处理类别间具有大小关系的数据。
例如成绩,可