证明:经过有限次迭代,可以得到一个将线性可分的训练数据集完全正确划分的分离超平面及感知机模型
当训练数据集线性不可分时,算法不收敛
假设前提:
- 所有训练数据点都线性可分的
- 初值(w0,b0)=0⃗(w_0, b_0) = \vec{0}(w0,b0)=0
证明前的一些定义
(1)令
w^=(wT,b)T 向量一般默认为列向量x^=(x,1) \hat w = (w^T, b)^T \ \ \ \ \ 向量一般默认为列向量 \\ \hat x = (x, 1) w^=(wT,b)T 向量一般默认为列向量x^=(x,1)
则
w^⋅x^=w⋅x+b \hat w \cdot \hat x = w \cdot x + b w^⋅x^=w⋅x+b
(2)
所有训练数据点都线性可分
⇒∃\Rightarrow \exists⇒∃一个超平面,使得所有训练数据集都被正确划分
令这个超平面为
w^opt⋅x^=0且∣∣w^opt∣∣=1(15) \hat w_{opt} \cdot \hat x = 0 且 ||\hat w_{opt}|| = 1 \tag {15} w^opt⋅x^=0且∣∣w^opt∣∣=1(15)
(3)令
γ=mini{
yi(w^opt⋅x^i)}(1) \gamma = min_i\{y_i(\hat w_{opt} \cdot \hat x_i)\} \tag {1} γ=mini{
yi(w^opt⋅x^i)}(1)
(4)令w^k\hat w_kw^k为更新了k次之后的为更新了k次之后的为更新了k次之后的w^\hat ww^
(5)令
R=max1≤i≤n∣∣x^i∣∣(10) R = max_{1 \le i \le n}||\hat x_i|| \tag {10} R=max1≤i≤n∣∣x^i∣∣(10)
证明过程
超平面w^opt⋅x^=0\hat w_{opt} \cdot \hat x = 0w^opt⋅x^=0将所有数据都完全正确的分开
⇒∀(x^i,yi)\Rightarrow \forall (\hat x_i, y_i)⇒∀(x^i,yi),有yiy_iyi与与与w^opt⋅x^i\hat w_{opt} \cdot \hat x_iw^opt⋅x^i符号相同,且两者都不为0
⇒∀(x^i,yi)\Rightarrow \forall (\hat x_i, y_i)⇒∀(x^i,yi),有,有,有yi(w^opt⋅x^i)>0y_i(\hat w_{opt} \cdot \hat x_i)>0y<