机器学习面试题- 特征工程

往往数据和特征决定了结果的上限,模型与算法决定了结果的下限。

数据类型:

  • 结构化数据(表)
  • 非结构化数据(图像、语音、文本等)

1、为什么要对特征做归一化

为了消除数据特征的量纲影响,使得不同特征之间具有可比性。

例如一个人的身高与体重对健康的影响。m与kg做单位,1.4-1.9与40-100kg范围。如果不做归一化,结果会倾向于数值差别比较大的体重特征。

想要得到更为准确的结果,所以会做归一化,使得各指标处于同一数值量级,方便分析

2、对特征归一化的方法

2.1 线性函数归一化

它对原始数据进行线性变换,使结果映射到[0, 1]的范围,实现对原始数据的等比缩放。归一化公式如下:
在这里插入图片描述

2.2 零均值归一化

它会将原始数据映射到均值为
0、标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么归一化公式定义为
在这里插入图片描述

3、对数据预处理时,如何处理类别型特征

类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。

3.1 序号编码

序号编码通常用于处理类别间具有大小关系的数据。
例如成绩,可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值