吴恩达机器学习作业Python实现(六)：支持向量机

原创

已于 2022-09-14 16:50:13 修改 · 2.9k 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #支持向量机

于 2022-09-13 17:07:42 首次发布

1 支持向量机SVM

在本练习前半部分，将对各种2D数据集使用支持向量机，通过这些数据集可以更加直观了解支持向量机的工作方式，以及如何在支持向量机中使用高斯核。后半部分，使用支持向量机搭建一个垃圾邮件分类器

1.1 示例数据集1

这是一个可以由线性边界分隔的数据集，首先我们先对数据进行可视化，可看到大约在左上角有一个异常的正样例，通过这个异常值，我们可以观察SVM决策边界是如何变化

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from scipy.io import loadmat
from sklearn import svm
from jupyterthemes import jtplot  # 用于解决坐标无法显示问题
jtplot.style(theme='chesterish') #选择一个绘图主题

path1 = r'E:/Code/ML/ml_learning/ex6-SVM/data/ex6data1.mat'
data1 = loadmat(path1)
X, y = data1['X'],data1['y']
# X是坐标点，y标签

def plotData(X, y):
    """数据可视化"""
    plt.figure(figsize=(8,5))
    # 将y展开，并用其值区分正负样本，cmap是设置颜色效果
    plt.scatter(X[:,0], X[:,1], c=y.flatten(), cmap='rainbow')
    plt.xlabel('X1')
    plt.ylabel('X2')
plotData(X,y)

接下来我们调用就不自己写SVM模型代码，而是直接调用sklearn包，需要注意y得展平再传入模型中，训练好模型后就是将决策边界可视化，需要注意的是在这里我们不需要自己额外添加x0=1，模型中会自动添加。

# 调用模型，训练模型
# 这里使用列表推导式减少代码行数
models = [svm.SVC(C, kernel='linear') for C in [1, 100]]
clfs = [model.fit(X, y.ravel()) for model in models]

def plotBoundary(clf, X):
    '''画决策边界'''
    x_min, x_max = X[:,0].min()*1, X[:,0].max()*1
    y_min, y_max = X[:,1].min()*1,X[:,1].max()*1
    # 画等高线
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, 500),
                         np.linspace(y_min, y_max, 500))# (500,500)
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) #(250000,)
    Z = Z.reshape(xx.shape)
    plt.contour(xx, yy, Z)

title = ['SVM Decision Boundary with C = {} (Example Dataset 1'.format(C) for C in [1, 100]]
for model,title in zip(clfs,title):
    plt.figure(figsize=(8,5))
    plotData(X, y)
    plotBoundary(model, X)
    plt.title(title)

C是控制错误分类训练示例的惩罚，类似于1 / λ ，λ是前面逻辑回归时使用的正则化参数。可以看得出来C = 1时，SVM将决策边界放在了正负样本的中间，但是却将异常值做出了误分类，而当C = 100时对异常值做出了正确分类，但是其决策边界与数据并不自然匹配。