数据特征分析
对数据进行质量分析以后,接下来可通过常规统计分析、绘制图表、计算某些特征量关系等手段进行数据的特征分析。
描述性统计
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
- 平均水平的指标是对个体集中趋势的度量,使用广泛的有:均值和中位数
- 变异程度的指标则是对个体离开平均水平的度量,使用广泛的有:标准差和四分位间距
分布分析
分布分析能揭示数据的分布特征和分布类型。
对于定量数据,想要了解其分布形式是对称的还是非对称的,以及发现某些特大或特小的可疑值,可通过绘制频率分布表、频率分布直方图、茎叶图进行直观分析。
对于定性分类数据,可用饼图和条形图直观显示分布情况。
对比分析
对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平高低和速度快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间列表的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适的,才能作出客观的评价。
相关性分析
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
数据预处理
数据清洗
- 缺失值处理:一般分为三种:直接使用含有缺失值的特征、删除含有缺失值的特征和缺失值补全。
- 异常值处理:异常值分析也被成为离群点分析,用于校验是否有录入错误及不合理的数据。
- 简单统计分析:在进行异常值分析时,可以先对变量做一个描述性统计,以查看哪些数据是不合理的。
- 3σ\sigmaσ原则:如果数据符合正太分布,在3σ\sigmaσ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。
- 箱型图分析:异常值定义为小于OL-1.5IQR或大于QU+1.5IQR的值,其中QL(下四分位数),表示全部观测值中只有1/4的数据比它小;QU(上四分位数);IQR(四分位差距),是上四分位和下四分位之差。
- 小波变换
- 数据一致性处理:数据的一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实践相违背的挖掘结果。
数据变换
对数据进行规范化。
- 二次化:将有序属性转为二值类型。
- 独热码:对离散且无须的特征值进行特征数字化。
- 标准化:数据分布散或者取值相差大会影响训练结果,可以进行标准差标准化,转为均值为0、方差为1的特征分布。注:如果特征稀疏,并有大量的0,结果不可预测(可能除0)。因此在标准化前需要对数据分布进行探索。
- 正则化。
数据降维
- 主成分分析
- 线性判别分析
- 多维缩放降维
- 流形学习
特征选取
特征工程是将原始数据转化为特征,以更好地表示预测模型处理地实际问题,提升对于未知数据的准确性。
- 过滤式特征选取
- 包裹式特征选取
- 嵌入式特征选取
《机器学习实战》 屈希峰 党武娟