17、机器学习的未来发展与实践指南

机器学习的未来发展与实践指南

1. 数据与模型面临的挑战

1.1 噪声数据

在实际应用中,数据往往包含各种错误和不完美之处,这些问题可能源于测量误差、人为失误、专家在分类训练示例时的判断误差等,我们将这些统称为噪声。此外,当处理缺失值时,用一组与缺失值概率分布相对应的加权示例替换未知属性值的示例,也会引入噪声。噪声数据会导致学习模型在新数据上的预测准确率降低,并且模型会变得复杂,让用户难以解释和理解。

1.2 类别不平衡

类别不平衡是一个常见问题,例如在欺诈和异常检测中,大部分数据集(通常超过 90%)描述的是正常活动,只有一小部分包含欺诈示例。在这种情况下,如果模型总是预测为正常,那么它有 90% 的时间是正确的。这个问题在许多应用中都很普遍,如欺诈检测、异常检测、医疗诊断、溢油检测、人脸识别等。

解决类别不平衡问题有两种方法:
- 关注其他评估指标 :除了分类准确率,还可以关注召回率、精确率和 F 值等指标。这些指标关注模型预测少数类别的准确性(召回率)以及误报的比例(精确率)。
- 重采样 :减少过度代表的示例数量,使新数据集的两类比例达到平衡。

1.3 特征选择的困难

特征选择是建模中最具挑战性的部分,需要领域知识和对问题的深入理解。表现良好的特征应具备以下特性:
- 可重用性 :特征应能在不同的模型、应用和团队中重复使用。
- 可转换性 :能够通过操作(如 log()、max())转换特征,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值