特征分析与数据预处理

数据特征分析

对数据进行质量分析以后,接下来可通过常规统计分析、绘制图表、计算某些特征量关系等手段进行数据的特征分析。

描述性统计

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

  • 平均水平的指标是对个体集中趋势的度量,使用广泛的有:均值和中位数
  • 变异程度的指标则是对个体离开平均水平的度量,使用广泛的有:标准差和四分位间距

分布分析

分布分析能揭示数据的分布特征和分布类型。

对于定量数据,想要了解其分布形式是对称的还是非对称的,以及发现某些特大或特小的可疑值,可通过绘制频率分布表、频率分布直方图、茎叶图进行直观分析。

对于定性分类数据,可用饼图和条形图直观显示分布情况。

对比分析

对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平高低和速度快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间列表的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适的,才能作出客观的评价。

相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

数据预处理

数据清洗

  • 缺失值处理:一般分为三种:直接使用含有缺失值的特征、删除含有缺失值的特征和缺失值补全。
  • 异常值处理:异常值分析也被成为离群点分析,用于校验是否有录入错误及不合理的数据。
    1. 简单统计分析:在进行异常值分析时,可以先对变量做一个描述性统计,以查看哪些数据是不合理的。
    2. 3σ\sigmaσ原则:如果数据符合正太分布,在3σ\sigmaσ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。
    3. 箱型图分析:异常值定义为小于OL-1.5IQR或大于QU+1.5IQR的值,其中QL(下四分位数),表示全部观测值中只有1/4的数据比它小;QU(上四分位数);IQR(四分位差距),是上四分位和下四分位之差。
    4. 小波变换
  • 数据一致性处理:数据的一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实践相违背的挖掘结果。

数据变换

对数据进行规范化。

  • 二次化:将有序属性转为二值类型。
  • 独热码:对离散且无须的特征值进行特征数字化。
  • 标准化:数据分布散或者取值相差大会影响训练结果,可以进行标准差标准化,转为均值为0、方差为1的特征分布。注:如果特征稀疏,并有大量的0,结果不可预测(可能除0)。因此在标准化前需要对数据分布进行探索。
  • 正则化。

数据降维

  • 主成分分析
  • 线性判别分析
  • 多维缩放降维
  • 流形学习

特征选取

特征工程是将原始数据转化为特征,以更好地表示预测模型处理地实际问题,提升对于未知数据的准确性。

  • 过滤式特征选取
  • 包裹式特征选取
  • 嵌入式特征选取

《机器学习实战》 屈希峰 党武娟

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

田乐蒙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值