2-4 梯度下降法的收敛证明

证明:经过有限次迭代,可以得到一个将线性可分的训练数据集完全正确划分的分离超平面及感知机模型

当训练数据集线性不可分时,算法不收敛

假设前提:

  1. 所有训练数据点都线性可分的
  2. 初值(w0,b0)=0⃗(w_0, b_0) = \vec{0}(w0,b0)=0

证明前的一些定义

(1)令
w^=(wT,b)T     向量一般默认为列向量x^=(x,1) \hat w = (w^T, b)^T \ \ \ \ \ 向量一般默认为列向量 \\ \hat x = (x, 1) w^=(wT,b)T     x^=(x,1)

w^⋅x^=w⋅x+b \hat w \cdot \hat x = w \cdot x + b w^x^=wx+b
(2)
所有训练数据点都线性可分
⇒∃\Rightarrow \exists一个超平面,使得所有训练数据集都被正确划分
令这个超平面为
w^opt⋅x^=0且∣∣w^opt∣∣=1(15) \hat w_{opt} \cdot \hat x = 0 且 ||\hat w_{opt}|| = 1 \tag {15} w^optx^=0w^opt=1(15)
(3)令
γ=mini{ yi(w^opt⋅x^i)}(1) \gamma = min_i\{y_i(\hat w_{opt} \cdot \hat x_i)\} \tag {1} γ=mini{ yi(w^optx^i)}(1)
(4)令w^k\hat w_kw^k为更新了k次之后的为更新了k次之后的kw^\hat ww^
(5)令
R=max1≤i≤n∣∣x^i∣∣(10) R = max_{1 \le i \le n}||\hat x_i|| \tag {10} R=max1inx^i(10)

证明过程

超平面w^opt⋅x^=0\hat w_{opt} \cdot \hat x = 0w^optx^=0将所有数据都完全正确的分开
⇒∀(x^i,yi)\Rightarrow \forall (\hat x_i, y_i)(x^i,yi),有yiy_iyi与与w^opt⋅x^i\hat w_{opt} \cdot \hat x_iw^optx^i符号相同,且两者都不为0
⇒∀(x^i,yi)\Rightarrow \forall (\hat x_i, y_i)(x^i,yi),有,有yi(w^opt⋅x^i)>0y_i(\hat w_{opt} \cdot \hat x_i)>0y<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值