另外一个复杂公式

最新推荐文章于 2024-03-31 15:41:05 发布

转载最新推荐文章于 2024-03-31 15:41:05 发布 · 481 阅读

markdown 同时被 2 个专栏收录

25 篇文章

订阅专栏

我的CSDN第一个专栏

15 篇文章

订阅专栏

转载至：http://blog.csdn.net/WangCaihua321/article/details/47298363

前言
关于softmax回归，有比较多的资料，本来没有必要再写一次的。下面是一些网址：
1）http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92
2）http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression
3）http://blog.csdn.net/acdreamers/article/details/44663305
4）http://www.cnblogs.com/fanyabo/p/4060498.html
还有很多，不一一列出。

softmax 中的导数是怎样得到的？
为什么对网站上给出的目标函数直接求导是不对的？
为了解答这些问题，我决定写这篇文章。

注：如果你认为我是错的，请让我知道，先谢过了。

问题提出
按定义(一般资料中的定义)，softmax的似然函数为：

\prod i \prod k P k (x i) I (y (i) = k)

$\prod_i \prod_k P_k(x_i)^{I(y^{(i)}=k)}$
其中

k∈{1,2,⋯,K} k ∈ { 1 , 2 , ⋯ , K } $k \in \{1,2,\cdots,K\}$ ,

i∈{1,2,⋯,N} i ∈ { 1 , 2 , ⋯ , N } $i \in \{1,2,\cdots,N\}$ ,

Pk(xi) P k ( x i ) $P_k(x_i)$ 按softmax概率定义有：

P k (x i) = e θ T k x i \sum K l = 1 e θ T l x i

$P_k(x_i)=\frac{e^{\theta_k^Tx_i}}{\sum_{l=1}^K e^{\theta_l^Tx_i}}$
对似然函数取负对数，求匀值，引入正则项，得到目标函数/损失函数，如下:

J (θ) = - 1 N \sum i \sum k (I (y (i) = k) ln e θ T k x i \sum K l = 1 e θ T l x i) + λ 2 ‖ θ ‖ 22

$J(\theta)=-\frac{1}{N}\sum_i \sum_k \left( {I(y^{(i)}=k)}\ln \frac{e^{\theta_k^Tx_i}}{\sum_{l=1}^K e^{\theta_l^Tx_i}} \right) +\frac{\lambda}{2} \|\theta\|_2^2$
这与网站上的一致，当然也是正确的。接下来是求导，如下：

\partial J ( θ ) \partial θ j = - 1 N \sum i (I (y (i) = j) \sum K l = 1 e θ T l x i e θ T j x i P j (x i) | θ T j x i) x i + λ θ j

$\frac{\partial J(\theta)}{\partial \theta_j} = -\frac{1}{N}\sum_i \left( {I(y^{(i)}=j)}\frac{\sum_{l=1}^K e^{\theta_l^Tx_i}}{e^{\theta_j^Tx_i}} P_j(x_i)|_{\theta_j^Tx_i}\right)x_i + \lambda \theta_j$
其中

Pj(xi)|θTjxi P j ( x i ) | θ j T x i $P_j(x_i)|_{\theta_j^Tx_i}$ 是

Pj(xi) P j ( x i ) $P_j(x_i)$ 对

θTjxi θ j T x i $\theta_j^Tx_i$ 的导数，如下

P j (x i) | θ T j x i = e θ T j x i \sum K l = 1 e θ T l x i - ( e θ T j x i ) 2 ( \sum K l = 1 e θ T l x i ) 2

$P_j(x_i)|_{\theta_j^Tx_i} =\frac{e^{\theta_j^Tx_i}\sum_{l=1}^K e^{\theta_l^Tx_i}-(e^{\theta_j^Tx_i})^2}{(\sum_{l=1}^K e^{\theta_l^Tx_i})^2}$
整理得，

\partial J ( θ ) \partial θ j = - 1 N \sum i (I (y (i) = j) (1 - P j (x i))) x i + λ θ j

$\frac{\partial J(\theta)}{\partial \theta_j} = -\frac{1}{N}\sum_i \left( {I(y^{(i)}=j)} (1-P_j(x_i))\right)x_i + \lambda \theta_j$
这与网站上的结果不一致。网站上的结果为：

\partial J ( θ ) \partial θ j = - 1 N \sum i (I (y (i) = j) - P j (x i)) x i + λ θ j

$\frac{\partial J(\theta)}{\partial \theta_j} = -\frac{1}{N}\sum_i \left( {I(y^{(i)}=j)} -P_j(x_i)\right)x_i + \lambda \theta_j$
但是从推导过程来说好像没有什么错误，于是我开始怀疑网站上的结果是否正确。UFLDL Tutorial 中介绍过梯度检验方法。我按网站上的公式写目标函数和梯度进行验证，发现网站上的是对的，我认为正确的却不对，问题出在哪呢？

重新认识 softmax
按定义(一般资料中的定义)，softmax 的似然函数为：

\prod i \prod k P k (x i) I (y (i) = k)

$\prod_i \prod_k P_k(x_i)^{I(y^{(i)}=k)}$
softmax 每次只能取一个值，有排它性。另一种等价定义为:

\prod i \prod k ( e θ T k X i ) I ( y ( i ) = k ) \sum K l e θ T j x i

$\prod_i \frac{\prod_k(e^{\theta_k^T X_i})^{I(y^{(i)}=k)}}{\sum_l^K e^{\theta_j^T x_i}}$
对应的目标函数为：

J (θ) = - 1 N \sum i ((\sum k I (y (i) = k) ln e θ T k x i) - ln \sum l K e θ T l x i) + λ 2 ‖ θ ‖ 22

$J(\theta) = -\frac{1}{N} \sum_i \left( (\sum_k I(y^{(i)}=k)\ln e^{\theta_k^T x_i}) - \ln \sum_l^K e^{\theta_l^T x_i} \right) + \frac{\lambda}{2} \|\theta\|_2^2$
对这个目标函数求导为：

\partial J ( θ ) \partial θ j = - 1 N \sum i (I (y (i) = j) - P j (x i)) x i + λ θ j

$\frac{\partial J(\theta)}{\partial \theta_j} = -\frac{1}{N}\sum_i \left( {I(y^{(i)}=j)} -P_j(x_i)\right)x_i + \lambda \theta_j$

事实上，对于第二种似然函数，如果考虑softmax 每次只能取一个值，有排它性，即 $I(y^{(i)}=k)$ 只有一个为1，其它全为0。上面的目标函数与下面这个等价：

J (θ) = - 1 N \sum i \sum k (I (y (i) = k) ln e θ T k x i \sum K l = 1 e θ T l x i) + λ 2 ‖ θ ‖ 22

问题出在哪？
$\sum_l^K e^{\theta_l^Tx_i}$ 是归一化因子，与抽样无关。 $I(y^{(i)}=k)$ 只应影响与抽样相关的项，不应影响归一化因子 $\sum_l^K e^{\theta_l^Tx_i}$ 。所以，

J (θ) = - 1 N \sum i \sum k (I (y (i) = k) ln e θ T k x i \sum K l = 1 e θ T l x i) + λ 2 ‖ θ ‖ 22

$J(\theta)=-\frac{1}{N}\sum_i \sum_k \left( {I(y^{(i)}=k)}\ln \frac{e^{\theta_k^Tx_i}}{\sum_{l=1}^K e^{\theta_l^Tx_i}} \right) +\frac{\lambda}{2} \|\theta\|_2^2$
要先变成：

J (θ) = - 1 N \sum i ((\sum k I (y (i) = k) ln e θ T k x i) - ln \sum l K e θ T l x i) + λ 2 ‖ θ ‖ 22

$J(\theta) = -\frac{1}{N} \sum_i \left( (\sum_k I(y^{(i)}=k)\ln e^{\theta_k^T x_i}) - \ln \sum_l^K e^{\theta_l^T x_i} \right) + \frac{\lambda}{2} \|\theta\|_2^2$
再计算。