上一节中,说了超平面(W,b)方程为
样本点到超平面的距离怎么求?假设样本点x0(x0为向量)到超平面S距离d的计算过程为:
设点x0在平面S上的投影为x1,则wTx1+b=0
由于向量与平面S的法向量w平行,所以
(公式 2.1)
在这里为了方便理解,我们先讲解一下范数的概念。
范数,是具有“距离”概念的函数。在数学上,范数包括向量范数和矩阵范数,向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。我们这里只涉及向量范数。一共有四种范数,包括:
L-P范数:
L-0范数:当p=0时,就是L0范数。
L-1范数:
L-2范数: 这其实就是欧式距离。
L∞范数:当p=∞时,就是L∞范数。
公式2.1的||w||就是L2范数。
而:
所以
所以
假设超平面(w,b)能将训练样本正确分类,即
对于()∈D
若yi=+1,则
若yi=-1,则
令 (公式2.2)
公式2.2可以推导出:
距离超平面最近的这几个训练样本点使上述式子的等号成立,它们被称为“支持向量”,两个异类支持向量到超平面的距离之和为
它被称为“硬间隔”。
想要找到“最大间隔”的划分超平面,也就是要找到满足公式2.2中约束的参数w和b,使得r最大,即
为了最大化间隔,仅需最大化,等价于最小化
于是最终得出
(这里的1/2是为了求导以后形式简洁,不影响结果)
这就是支持向量机的基本型。
下节讲解支持向量机的对偶问题。