监督式机器学习概述与案例分析
1. 监督式机器学习简介
在面向应用的场景中,我们提及机器学习时,大多指的是监督式机器学习。它目前被认为是最成熟的机器学习技术,并且在许多实际任务中已经产生了显著的商业影响。在大数据和大模型的条件下,当我们能够获取大量带标签的训练数据以及足够的计算资源来构建非常大的模型时,监督式机器学习可以说是一个已解决的问题,因为如今的监督学习方法在这些场景中能产生可接受的性能。
2. 监督式机器学习的标准流程
从技术角度来看,每个机器学习问题都由标准流程中的几个关键选择组成,这个流程包含五个步骤:
2.1 特征提取(可选)
所有机器学习技术都严重依赖训练数据。为了构建性能良好的机器学习系统,在系统最终部署的相同(或足够接近)条件下收集足够多(实际上,越多越好)的领域内训练样本至关重要。然而,从大多数实际应用中收集的原始数据通常是高维的,并且这些维度之间往往高度相关。为了便于后续步骤,有时我们可以应用某些自动降维方法来导出更紧凑且不相关的特征,以表示原始数据。或者,我们也可以利用领域知识从原始数据中手动提取具有代表性的特征,这本质上是一种启发式方法,通常被称为特征工程。
值得一提的是,许多基于神经网络的深度学习方法展示了直接将高维原始数据作为输入的强大能力,从而完全绕过了显式的特征提取步骤。这些方法通常被称为端到端学习,目前仍在积极研究中。
2.2 从列表 A 中选择合适的模型
根据给定问题的性质,从列表 A 中列出的候选模型中选择一个合适的机器学习模型。机器学习作为一个活跃的研究领域已经存在了数十年,为各种数据类型和问题提供了丰富的模型选择。列表 A