模块二：监督学习经典模型

最新推荐文章于 2025-08-10 22:38:45 发布

原创最新推荐文章于 2025-08-10 22:38:45 发布 · 607 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

机器学习工程师养成计划专栏收录该内容

8 篇文章

订阅专栏

前言

欢迎来到本系列的第二课！监督学习是机器学习的“核心引擎”，它通过从“带标签”的数据中学习，来获得预测未来的能力。无论是预测房价，还是识别垃圾邮件，其背后都是监督学习模型在工作。

本期，我们将系统性地学习七种堪称经典的监督学习算法。对于每一种算法，我们不仅要了解它能“做什么”，更要直观地理解其“如何工作”的核心原理。我们将涵盖：

线性模型：线性回归、逻辑回归及其对抗过拟合的“铠甲”——正则化。
非线性模型：K-近邻（KNN）、支持向量机（SVM）、朴素贝叶斯和决策树。

第一章：线性模型 —— 用简单的直线描绘世界

线性模型是所有模型的起点，它假设输入特征和输出结果之间存在线性关系。

1.1 线性回归 (Linear Regression)

目标：预测一个连续的数值（回归问题）。
核心思想：寻找一条直线（在多维空间中是一个超平面），来最好地拟合数据点。其数学形式为：

其中 y 是预测值，x 是特征，w（权重）和 b（偏置）是模型需要学习的参数。
学习方式：通过最小化损失函数来学习参数。最常用的损失函数是均方误差 (Mean Squared Error, MSE)，即所有样本的**(预测值 - 真实值)²** 的平均值。通过梯度下降法等优化算法，找到能使 MSE 最小的 w 和 b。
模型扩展：
- 简单线性回归：只有一个输入特征。
- 多元线性回归：有多个输入特征。
- 多项式回归：通过对原始特征进行多项式变换（如），使得线性模型能够拟合非线性关系。

1.2 正则化 (Regularization) —— 对抗过拟合的利器

问题：当模型（尤其是特征很多或使用高次多项式时）过于复杂，它可能会在训练集上表现得过于完美，从而“记住”了训练数据中的噪声，导致过拟合。这样的模型泛化能力很差。
解决方案：正则化。其核心思想是在损失函数中加入一个惩罚项，以限制模型参数（权重 w）的大小，从而“简化”模型。
L2 正则化 (Ridge / 岭回归)
- 惩罚项：所有权重的平方和。
- 效果：倾向于让所有权重都趋近于 0 但不等于 0，使得模型更平滑，鲁棒性更强。
L1 正则化 (Lasso 回归)
- 惩罚项：所有权重的绝对值之和。
- 效果：倾向于让一部分不重要的特征的权重直接变为 0。因此，L1 正则化不仅可以防止过拟合，还能实现特征选择。

1.3 逻辑回归 (Logistic Regression)

目标：预测一个离散的类别（分类问题），最常见的是二分类（Yes/No, 1/0）。
核心思想：
1. 它首先像线性回归一样，计算出一个线性的预测值 z = wx + b。
2. 然后，它将这个 z 值，通过一个 Sigmoid 函数（一个 S 型函数），“压扁”到一个 (0, 1) 的区间内，使其可以被解释为一个概率。
3. 最后，设置一个阈值（如 0.5），如果概率大于阈值，则预测为正类（1）；否则，预测为负类（0）。
损失函数：由于输出是概率，MSE 不再适用。逻辑回归使用对数损失（Log Loss）或交叉熵损失（Cross-Entropy Loss）。
重要提示：虽然名字里带“回归”，但逻辑回归是一个地地道道的分类算法。

第二章：非线性模型 —— 探索更复杂的世界

2.1 K-近邻算法 (K-Nearest Neighbors, KNN)

核心思想：“物以类聚，人以群分”。要预测一个新数据点的类别，只需看离它最近的 K 个邻居是什么类别，然后进行“投票”，得票最多的类别就是新数据点的预测类别。
特点：
- 惰性学习：KNN 没有显式的“训练”过程，它只是把所有训练数据“记住”。真正的计算发生在预测阶段。
- 简单直观：非常容易理解和实现。
关键要素：
- K 值的选择：一个超参数，需要调优。K 太小容易受噪声影响，K 太大容易“太平滑”。
- 距离度量：如何定义“近”，常用的是欧几里得距离。
- 特征缩放：由于依赖距离计算，KNN 对特征的尺度非常敏感，使用前通常需要对数据进行归一化或标准化。

2.2 支持向量机 (Support Vector Machine, SVM)

核心思想：在特征空间中，寻找一个能将不同类别分得最开的决策边界（超平面）。所谓“最开”，是指这个边界与离它最近的任何一个样本点（即支持向量）之间的**间隔（Margin）**最大。
比喻：在两群士兵之间划定一条尽可能宽的“停火隔离带”。
核技巧 (Kernel Trick)：当数据线性不可分时，SVM 通过核函数，将数据从原始空间巧妙地映射到一个更高维的空间，使得数据在这个高维空间中变得线性可分，然后再寻找最大间隔超平面。这是 SVM 处理非线性问题的“黑魔法”。
优点：泛化能力强，在高维空间中表现优异。

2.3 朴素贝叶斯 (Naive Bayes)

核心思想：一个基于贝叶斯定理的概率分类器。它计算的是，在已知一个样本的各项特征的条件下，这个样本属于各个类别的后验概率，然后选择概率最大的那个类别作为预测结果。
“朴素”在何处？：它做了一个很强的特征条件独立性假设。即，它“天真地”认为，一个样本的各个特征之间是相互独立的，互不影响。
优点：简单、高效，在文本分类（如垃圾邮件过滤）等领域表现尤其出色。

2.4 决策树 (Decision Tree)

核心思想：通过学习一系列 if-then-else 规则，来构建一个树形的决策模型。
比喻：像一个“20问”游戏。模型从根节点开始，对样本的某个特征提出一个问题，根据答案将其划分到不同的子节点，重复此过程，直到到达叶子节点，获得最终的类别。
学习过程（树的构建）：
- 决策树学习的关键，在于每一步如何选择最优的特征和切分点来进行划分。
- 目标：希望每次划分后，子节点中的样本类别尽可能地“纯”。
- 衡量“纯度”的指标：
  - 信息熵 (Entropy)：物理学中表示混乱程度的概念，信息熵越小，纯度越高。
  - 基尼不纯度 (Gini Impurity)：另一个衡量纯度的指标，计算代价更小。
- 算法（如 ID3, C4.5, CART）会在每个节点，遍历所有可能的特征和切分点，选择那个能带来最大信息增益（即让总纯度提升最大）的划分。
优点：模型直观，易于解释。
缺点：容易过拟合，单个决策树的泛化能力可能不强。

总结与下一课预告

在本期中，我们系统性地学习了监督学习中的七种经典模型：

我们从线性回归和逻辑回归入手，理解了线性模型的运作方式，并掌握了正则化这一对抗过拟合的重要武器。
我们探索了KNN, SVM, 朴素贝叶斯, 决策树等多种非线性模型，领略了它们在解决分类问题时，各自不同的“世界观”和核心思想。

我们注意到，像决策树这样的单个模型，虽然强大，但容易过拟合。有没有办法能将多个“平庸”的模型，组合成一个“卓越”的、更强大的模型呢？

在下一课中，我们将深入机器学习中提升性能最有效的技术之一——集成学习 (Ensemble Learning)。我们将从随机森林开始，探索“三个臭皮匠，顶个诸葛亮”的奥秘。敬请期待！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。