机器学习的未来发展与实践指南
1. 数据与模型面临的挑战
1.1 噪声数据
在实际应用中,数据往往包含各种错误和不完美之处,这些问题可能源于测量误差、人为失误、专家在分类训练示例时的判断误差等,我们将这些统称为噪声。此外,当处理缺失值时,用一组与缺失值概率分布相对应的加权示例替换未知属性值的示例,也会引入噪声。噪声数据会导致学习模型在新数据上的预测准确率降低,并且模型会变得复杂,让用户难以解释和理解。
1.2 类别不平衡
类别不平衡是一个常见问题,例如在欺诈和异常检测中,大部分数据集(通常超过 90%)描述的是正常活动,只有一小部分包含欺诈示例。在这种情况下,如果模型总是预测为正常,那么它有 90% 的时间是正确的。这个问题在许多应用中都很普遍,如欺诈检测、异常检测、医疗诊断、溢油检测、人脸识别等。
解决类别不平衡问题有两种方法:
- 关注其他评估指标 :除了分类准确率,还可以关注召回率、精确率和 F 值等指标。这些指标关注模型预测少数类别的准确性(召回率)以及误报的比例(精确率)。
- 重采样 :减少过度代表的示例数量,使新数据集的两类比例达到平衡。
1.3 特征选择的困难
特征选择是建模中最具挑战性的部分,需要领域知识和对问题的深入理解。表现良好的特征应具备以下特性:
- 可重用性 :特征应能在不同的模型、应用和团队中重复使用。
- 可转换性 :能够通过操作(如 log()、max())转换特征,