模块二:监督学习经典模型

前言

欢迎来到本系列的第二课!监督学习是机器学习的“核心引擎”,它通过从“带标签”的数据中学习,来获得预测未来的能力。无论是预测房价,还是识别垃圾邮件,其背后都是监督学习模型在工作。

本期,我们将系统性地学习七种堪称经典的监督学习算法。对于每一种算法,我们不仅要了解它能“做什么”,更要直观地理解其“如何工作”的核心原理。我们将涵盖:

  • 线性模型:线性回归、逻辑回归及其对抗过拟合的“铠甲”——正则化。

  • 非线性模型:K-近邻(KNN)、支持向量机(SVM)、朴素贝叶斯和决策树。

第一章:线性模型 —— 用简单的直线描绘世界

线性模型是所有模型的起点,它假设输入特征和输出结果之间存在线性关系。

1.1 线性回归 (Linear Regression)

  • 目标:预测一个连续的数值(回归问题)。

  • 核心思想:寻找一条直线(在多维空间中是一个超平面),来最好地拟合数据点。其数学形式为:

    其中 y 是预测值,x 是特征,w(权重)和 b(偏置)是模型需要学习的参数。

  • 学习方式:通过最小化损失函数来学习参数。最常用的损失函数是均方误差 (Mean Squared Error, MSE),即所有样本的**(预测值 - 真实值)²** 的平均值。通过梯度下降法等优化算法,找到能使 MSE 最小的 wb

  • 模型扩展

    • 简单线性回归:只有一个输入特征。

    • 多元线性回归:有多个输入特征。

    • 多项式回归:通过对原始特征进行多项式变换(如),使得线性模型能够拟合非线性关系。

1.2 正则化 (Regularization) —— 对抗过拟合的利器
  • 问题:当模型(尤其是特征很多或使用高次多项式时)过于复杂,它可能会在训练集上表现得过于完美,从而“记住”了训练数据中的噪声,导致过拟合。这样的模型泛化能力很差。

  • 解决方案正则化。其核心思想是在损失函数中加入一个惩罚项,以限制模型参数(权重 w)的大小,从而“简化”模型。

  • L2 正则化 (Ridge / 岭回归)

    • 惩罚项:所有权重的平方和

    • 效果:倾向于让所有权重都趋近于 0 但不等于 0,使得模型更平滑,鲁棒性更强。

  • L1 正则化 (Lasso 回归)

    • 惩罚项:所有权重的绝对值之和

    • 效果:倾向于让一部分不重要的特征的权重直接变为 0。因此,L1 正则化不仅可以防止过拟合,还能实现特征选择

1.3 逻辑回归 (Logistic Regression)

  • 目标:预测一个离散的类别(分类问题),最常见的是二分类(Yes/No, 1/0)。

  • 核心思想

    1. 它首先像线性回归一样,计算出一个线性的预测值 z = wx + b

    2. 然后,它将这个 z 值,通过一个 Sigmoid 函数(一个 S 型函数),“压扁”到一个 (0, 1) 的区间内,使其可以被解释为一个概率

    3. 最后,设置一个阈值(如 0.5),如果概率大于阈值,则预测为正类(1);否则,预测为负类(0)。

  • 损失函数:由于输出是概率,MSE 不再适用。逻辑回归使用对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)

  • 重要提示:虽然名字里带“回归”,但逻辑回归是一个地地道道的分类算法

第二章:非线性模型 —— 探索更复杂的世界

2.1 K-近邻算法 (K-Nearest Neighbors, KNN)

  • 核心思想:“物以类聚,人以群分”。要预测一个新数据点的类别,只需看离它最近的 K 个邻居是什么类别,然后进行“投票”,得票最多的类别就是新数据点的预测类别。

  • 特点

    • 惰性学习:KNN 没有显式的“训练”过程,它只是把所有训练数据“记住”。真正的计算发生在预测阶段。

    • 简单直观:非常容易理解和实现。

  • 关键要素

    • K 值的选择:一个超参数,需要调优。K 太小容易受噪声影响,K 太大容易“太平滑”。

    • 距离度量:如何定义“近”,常用的是欧几里得距离。

    • 特征缩放:由于依赖距离计算,KNN 对特征的尺度非常敏感,使用前通常需要对数据进行归一化或标准化。

2.2 支持向量机 (Support Vector Machine, SVM)

  • 核心思想:在特征空间中,寻找一个能将不同类别分得最开决策边界(超平面)。所谓“最开”,是指这个边界与离它最近的任何一个样本点(即支持向量)之间的**间隔(Margin)**最大。

  • 比喻:在两群士兵之间划定一条尽可能宽的“停火隔离带”。

  • 核技巧 (Kernel Trick):当数据线性不可分时,SVM 通过核函数,将数据从原始空间巧妙地映射到一个更高维的空间,使得数据在这个高维空间中变得线性可分,然后再寻找最大间隔超平面。这是 SVM 处理非线性问题的“黑魔法”。

  • 优点:泛化能力强,在高维空间中表现优异。

2.3 朴素贝叶斯 (Naive Bayes)

  • 核心思想:一个基于贝叶斯定理的概率分类器。它计算的是,在已知一个样本的各项特征的条件下,这个样本属于各个类别的后验概率,然后选择概率最大的那个类别作为预测结果。

  • “朴素”在何处?:它做了一个很强的特征条件独立性假设。即,它“天真地”认为,一个样本的各个特征之间是相互独立的,互不影响。

  • 优点:简单、高效,在文本分类(如垃圾邮件过滤)等领域表现尤其出色。

2.4 决策树 (Decision Tree)

  • 核心思想:通过学习一系列 if-then-else 规则,来构建一个树形的决策模型。

  • 比喻:像一个“20问”游戏。模型从根节点开始,对样本的某个特征提出一个问题,根据答案将其划分到不同的子节点,重复此过程,直到到达叶子节点,获得最终的类别。

  • 学习过程(树的构建)

    • 决策树学习的关键,在于每一步如何选择最优的特征和切分点来进行划分。

    • 目标:希望每次划分后,子节点中的样本类别尽可能地“纯”。

    • 衡量“纯度”的指标

      • 信息熵 (Entropy):物理学中表示混乱程度的概念,信息熵越小,纯度越高。

      • 基尼不纯度 (Gini Impurity):另一个衡量纯度的指标,计算代价更小。

    • 算法(如 ID3, C4.5, CART)会在每个节点,遍历所有可能的特征和切分点,选择那个能带来最大信息增益(即让总纯度提升最大)的划分。

  • 优点:模型直观,易于解释。

  • 缺点:容易过拟合,单个决策树的泛化能力可能不强。

总结与下一课预告

在本期中,我们系统性地学习了监督学习中的七种经典模型:

  • 我们从线性回归逻辑回归入手,理解了线性模型的运作方式,并掌握了正则化这一对抗过拟合的重要武器。

  • 我们探索了KNN, SVM, 朴素贝叶斯, 决策树等多种非线性模型,领略了它们在解决分类问题时,各自不同的“世界观”和核心思想。

我们注意到,像决策树这样的单个模型,虽然强大,但容易过拟合。有没有办法能将多个“平庸”的模型,组合成一个“卓越”的、更强大的模型呢?

在下一课中,我们将深入机器学习中提升性能最有效的技术之一——集成学习 (Ensemble Learning)。我们将从随机森林开始,探索“三个臭皮匠,顶个诸葛亮”的奥秘。敬请期待!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值