python svm算法_Python · SVM（四）· SMO 算法

最新推荐文章于 2023-05-04 00:48:15 发布

原创最新推荐文章于 2023-05-04 00:48:15 发布 · 319 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python svm算法

本文详细介绍了SVM中的SMO算法，包括算法概述、KKT条件、参数选择策略以及如何解决带约束的二次规划问题。通过实例展示了SMO在训练过程中的效果，并解释了支持向量的概念。文章还探讨了如何将核方法应用于SMO算法中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

(这里是本章会用到的 GitHub 地址)

(这篇东西我真是觉得又臭又长 ┑(￣Д ￣)┍)

SMO 算法概述

SMO 是由 Platt 在 1998 年提出的、针对软间隔最大化 SVM 对偶问题求解的一个算法，其基本思想很简单：在每一步优化中，挑选出诸多参数(

)中的两个参数(

、

)作为“真正的参数”，其余参数都视为常数，从而问题就变成了类似于二次方程求最大值的问题，从而我们就能求出解析解

具体而言，SMO 要解决的是如下对偶问题：

使得对

、都有

、

其大致求解步骤则可以概括如下：选出

中“最不好的”两个参数

、

只把

、

视为参数并把其余的

视为常数，于是最大化

就变成了以

、

为参数的二次规划问题，从而可以直接对其进行求解；但是，注意到

、

需满足

和

、

，所以求完解后需要检查是否满足约束；如不满足，则进行调整

KKT 条件

先来看如何选取参数。在 SMO 算法中，我们是依次选取参数的：选出违反 KKT 条件最严重的样本点、以其对应的参数作为第一个参数

第二个参数的选取有一种比较繁复且高效的方法，但对于一个朴素的实现而言、第二个参数即使随机选取也无不可

这里就有了一个叫 KKT 条件的东西，其详细的陈列会放在文末，这里就仅简要的说明一下。具体而言，对于已有的模型

来说，

及其对应样本

的 KKT 条件为：

注意我们之前提过样本到超平面的函数间隔为

，所以上述 KKT 条件可以直观地叙述为：样本离间隔超平面比较远

样本落在间隔超平面上

样本在间隔超平面以内

【注意：这里的间隔超平面即为满足方程

的平面；由于

可以取正负一两个值，所以间隔超平面会有两个——

和

。而分类超平面则是满足

的平面，需要将它和间隔超平面加以区分】

可以以一张图来直观理解这里提到的诸多概念：

(画得有点乱，见谅……)

图中外面有个黑圆圈的其实就是传说中的“支持向量”，其定义会在文末给出

那么我们到底应该如何刻画“违反 KKT 条件”这么个东西呢？从直观上来说，我们可以有这么一种简单有效的定义：计算三份“差异向量”

，其中第

份对应于三个 KKT 条件中的第

个，且

针对不同的 KKT 条件，将

的某些位置

置为 0。具体而言：对第一个 KKT 条件

而言，满足以下两种情况的

将应该置为 0：且

且

对第二个 KKT 条件

而言则是：(

或

)且

且

对第三个 KKT 条件

亦同理：且

且

最后则可以简单的将三份差异向量的平方相加来作为“损失”，从而直接选出使该损失最大的

作为 SMO 的第一个参数即可。具体而言：

得益于 Numpy 强大的 Fancy Indexing，上述置 0 的实现非常好写(？？？)：

# 得到 alpha > 0 和 alpha < C 的 mask

con1 = alpha > 0

con2 = alpha < C

# 算出“差异向量”并拷贝成三份

err1 = y * y_pred - 1

err2 = err1.copy()

err3 = err1.copy()

# 依次根据三个 KKT 条件，将差异向量的某些位置设为 0

# 不难看出为了直观、我做了不少重复的运算，所以这一步是可以优化的

err1[(con1 & (err1 <= 0)) | (~con1 & (err1 > 0))] = 0

err2[((~con1 | ~con2) & (err2 != 0)) | ((con1 & con2) & (err2 == 0))] = 0

err3[(con2 & (err3 >= 0)) | (~con2 & (err3 < 0))] = 0

# 算出平方和并取出使得“损失”最大的 idx

err = err1 ** 2 + err2 ** 2 + err3 ** 2

idx = np.argmax(err)第二个参数则可以简单地随机选取，虽然这不是特别好，但效果已然不错，而且不仅实现起来更简便、运行起来也更快(其实就是我太懒)(喂)。具体代码如下：

idx = np.random.randint(len(self._y))

# 这里的 idx1 是第一个参数对应的 idx

while idx == idx1:

idx = np.random.randint(len(self._y))

return idx

至于 SMO 算法的第二步，正如前文所说，它的本质就是一个带约束的二次规划，虽然求解过程可能会比较折腾，但其实难度不大。具体步骤会放在文末，这里就暂时按下

SMO 的效果

仍是先看看螺旋线数据集上的训练过程：

略显纠结，不过还是不错的

接下来看看蘑菇数据集上的表现；单就这个数据集而言，我们实现的朴素 SVM 和 sklearn 中的 SVM 表现几乎是一致的(在使用 RBF 核时)，比较具有代表性的训练曲线则如下图所示：也算是符合 SMO 这种每次只取两个参数进行更新的训练方法的直观