支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。
支持向量机便于处理分辨黑白之类的问题,即判断数据集中两类不同数据点的问题。支持向量机构造一个超平面,利用超平面作为分类器,分开数据点。
以下为支持向量机理论基础知识:
VC维:已知一个数据集,包含N个点,N个点分别用+\-标记,则有种可能的排布方式,如果对于每一种方式,分类器都可以将+-类分开,则分类器所能分开的最大数据集点数为分类器VC维。
结构化风险:结构化风险=置信风险+经验风险
风险:为预计解与真实解之间的差异
一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。
置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,