引例:挑土豆大作战
二狗黑心厨房开业啦,你被抽中作为幸运观众可以去厨房参观,发现案板上有两类土豆,如果充了二狗888vip会员,给你做饭就用好土豆,如果没充会员,给你做饭就用坏土豆。这时二狗递给你一把刀,说如果你不用手触摸土豆的情况下用一把刀就能将好土豆和坏土豆分开,且不能把土豆分错,就送你一年888vip会员,这时你应该怎么办?
如何把挑土豆抽象化一点?–感知机模型
假设二狗稍微有点缺心眼,把好土豆和坏土豆已经聚好类了,如下图所示:
可以把实心圆点想象成好土豆,空心圆点想象成坏土豆,只要在两类土豆的中间给它来一刀,自然就能把好坏土豆分开。
但是,可以很明显的发现,有无数种下刀方式,为了拿到888vip,肯定要选择最稳妥的下刀方式,那么怎么下刀方式才是最好的呢?
答:你可以在脑内迅速的计算一下,对每一种下刀方式把每一个土豆分错的概率进行加和,最后选择一个总分错概率最小的下刀方式。
- 好土豆:正例;坏土豆:负例;刀:超平面
- 感知机能有效的前提的正例与负例是线性可分的。
- 感知机选择超平面的方式:损失函数最小。损失函数通常选为误分类点到超平面的总距离。
下刀的时候每个土豆都很重要吗?–硬间隔支持向量机
到这里,聪明的观众已经发现了,对各种下刀方式计算一下总误差是工作量很大且很蠢笨的,那我们能不能研究一下,怎么衡量好的下刀方式更简单呢?
如下图所示,从直观上来说,最深色的那一刀最好,因为它离正例和负例都比较远,这样你在训练案板上练好了,万一测试案板上土豆变多了一些,或者你手突然抖了一下,也比其他下刀方式分错的概率小。