SVM深入理解&人脸特征提取_svm特征数据-CSDN博客

本文链接：https://blog.csdn.net/qq_45937732/article/details/121283574

一.SVM深入理解

1.支持向量机(SVM)

给定训练样本集，在特征空间上找到一个分离超平面，将样本点分到不同的类。其中当且存在唯一的分类超平面，使得样本点距离分类超平面的距离最大。其中，距离超平面最近的点为该超平面的支持向量。

找到超平面后，对于待测点，通过计算该点相对于超平面的位置进行分类。其中，一个点距离分离超平面的距离越大，表示分类预测的确信程度越高。
在这里插入图片描述
SVM的数学推导非常繁琐，我个人了解得还不够透彻，推荐去看李航编写的《统计学习方法》，里面的数学理论推导非常详细。还有斯坦福大学的公开课《机器学习》，对这部分讲解得深入浅出，非常推荐。

2.惩罚参数C

惩罚参数表示对误分类点的惩罚权重。如下图所示，惩罚参数的设置相当与在训练集的误差和间隔平面的距离上做一个折衷选择。当惩罚参数过大，如（a）易出现过拟合的情况，预测时，易导致误分情况。减小惩罚参数，开始容忍样本点落入间隔平面之内。过小会导致训练集的样本点对结果影响变小分类功能丧失。因此，选择合适的惩罚参数，会大大提高分类器的性能，非常关键。实际运用过程中，采用交叉验证的方法选择合适的参数C。

在这里简要的提一下交叉验证（Cross Validation）的思想：即将所有的样本分成：训练集（train set），验证集（validation set）和测试集（test set），合适的划分比例如（3:3:4），使用不同的参数训练样本，在验证集上验证表现性能，得到一组最佳参数再应用在测试集上计算最终精度。此方法可大大减少因设置参数花费的时间。
在这里插入图片描述

3.核函数

实际的训练集通常是线性不可分的，这就需要运用到核技巧将原空间中的点映射到线性可分的高维空间。
在这里插入图片描述
常用的核函数有：线性核函数、多项式核函数、高斯核函数（RBF核函数），sigmoid核函数。
核函数的选择对分类器的影响较大。

4.多分类支持向量机

实际分类通常涉及多类问题的区分，而SVM的理论是二类问题的区分，解决多类问题通常的方法如下，前两种方法最常见：

一对多（one-vs-rest）
构造k个SVM，分类时将未知样本分类为具有最大分类值的那类。
一对一（one-vs-one）
任意两个样本之间设计一个SVM共n(n-1)/2，分类时为得票最多的类。
层次分类（H-SVMs）
分层：所有类别分成子类，子类再分，循环得到单独的类。

.5.鸢尾花数据集

引包与绘制

import numpy as np
from sklearn import datasets   #导入数据集
import matplotlib.pyplot as plt  
from sklearn.preprocessing import StandardScaler
from matplotlib.colors import ListedColormap
# 边界绘制函数
def plot_decision_boundary(model,axis):
    x0,x1=np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))
    # meshgrid函数是从坐标向量中返回坐标矩阵
    x_new=np.c_[x0.ravel(),x1.ravel()]
    y_predict=model.predict(x_new)#获取预测值
    zz=y_predict.reshape(x0.shape)
    custom_cmap=ListedColormap(['#EF9A9A','#FFF59D'])
    plt.contourf(x0,x1,zz,cmap=custom_cmap)
iris = datasets.load_iris()
data_x = iris.data[:, :2] 
data_y = iris.target
scaler=StandardScaler()# 标准化
data_x = scaler.fit_transform(data_x)#计算训练数据的均值和方差
plt.rcParams["font.sans-serif"] = ['SimHei']    # 用来正常显示中文标签，SimHei是字体名称，字体必须在系统中存在，字体的查看方式和安装第三部分
plt.rcParams['axes.unicode_minus'] = False     # 用来正常显示负号
plt.scatter(data_x[data_y==0, 0],data_x[data_y==0, 1])    # 选取y所有为0的+X的第一列
plt.scatter(data_x[data_y==1, 0],data_x[data_y==1, 1])    # 选取y所有为1的+X的第一列

plt.xlabel('sepal length')    # 设置横坐标标注xlabel为sepal width
plt.ylabel('sepal width')    # 设置纵坐标标注ylabel为sepal length
plt.title('sepal散点图')    # 设置散点图的标题为sepal散点图
plt.show()

在这里插入图片描述

5.1线性处理

from sklearn.svm import LinearSVC
svc_line = LinearSVC(C =1e9,max_iter=1000000) #线性SVM分类器
svc_line.fit(data_x,data_y)#训练svm
plot_decision_boundary(svc_line,axis=[-3,3,-3,4])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])

plt.scatter(data_x[data_y==2,0],data_x[data_y==2,1])
plt.show()

在这里插入图片描述

5.2 多项式分类

from sklearn.preprocessing import PolynomialFeatures #导入多项式回归
from sklearn.pipeline import Pipeline #导入python里的管道
def PolynomialSVC(degree,c=5):#多项式svm
    """
    :param d:阶数
    :param C:正则化常数
    :return:一个Pipeline实例
    """
    return Pipeline([
            # 将源数据 映射到 3阶多项式
            ("poly_features", PolynomialFeatures(degree=degree)),
            # 标准化
            ("scaler", StandardScaler()),
            # SVC线性分类器
            ("svm_clf", LinearSVC(C=c, loss="hinge", random_state=10,max_iter=<