机器学习-白板推导系列笔记（七）-核方法

最新推荐文章于 2022-11-24 13:59:22 发布

原创

最新推荐文章于 2022-11-24 13:59:22 发布 · 609 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文主要探讨了在机器学习中遇到线性不可分问题时，如何通过核方法解决。介绍了核方法的引入背景，即避免在高维空间中进行复杂计算，以及正定核函数的概念和其对称性、正定性的证明。通过核函数，可以简化支持向量机等算法的运算量，实现非线性问题的线性可分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

此文章主要是结合哔站shuhuai008大佬的白板推导视频：核方法_101min

全部笔记的汇总贴：机器学习-白板推导系列笔记

一、线性不可分问题

有时线性可分的数据夹杂一点噪声，可以通过改进算法来实现分类，比如感知机的口袋算法和支持向量机的软间隔。但是有时候数据往往完全不是线性可分的，比如下面这种情况：
在这里插入图片描述
在异或问题中数据往往不是线性可分的，但通过将数据映射到高维空间后就可以实现线性可分。可以认为高维空间中的数据比低维空间的数据更易线性可分。对于异或问题，我们可以通过寻找一个映射 $\phi (x)$ 将低维空间中的数据 $x$ 映射成高维空间中的z来实现数据的线性可分，例如：

$\underset{二维}{\underbrace{x=(x_{1},x_{2})}}\overset{\phi (x)}{\rightarrow}\underset{三维}{\underbrace{z=(x_{1},x_{2},(x_{1}-x_{2})^{2})}}$

然后在新的空间中，该数据就可以实现线性可分：
在这里插入图片描述

二、核方法的引出

映射到高维空间以后出现的问题是计算复杂度的加大，例如在支持向量机的求解过程中求解的优化问题可以转换为如下的优化问题：

$\left\{\begin{matrix} \underset{\lambda }{min}\; \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}-\sum_{i=1}^{N}\lambda _{i},i=1,2,\cdots ,N \\ \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.$

将数据映射到高维空间后也就需要求解以下优化问题：

$\left\{\begin{matrix} \underset{\lambda }{min}\; \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}{\color{Red}{\phi (x_{i})^{T}\phi (x_{j})}}-\sum_{i=1}^{N}\lambda _{i},i=1,2,\cdots ,N \\ \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.$