CRF条件随机场模型笔记

最新推荐文章于 2025-02-18 11:02:07 发布

原创最新推荐文章于 2025-02-18 11:02:07 发布 · 259 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #nlp

NLP 专栏收录该内容

11 篇文章

订阅专栏

同上一篇《以序列标注为例学习隐马尔可夫模型HMM》一样，仍旧以序列标注问题为例。

序列标注问题是给定一个序列 $X$ ，求一个函数 $f$ ，使得 $X$ 通过 $f$ 映射得到想要的序列 $Y$ ，即：
$\rightarrow Y$
在这里插入图片描述

1.CRF基本假设

与HMM模型认为P(x,y)是转移概率和发射概率的乘积不同，CRF认为：
$\varpropto exp(\omega \phi(x,y))$
其中 $ω\omega$ 代表一个权重， $ϕ(x,y)\phi(x,y)$ 是关于x,y序列的特征向量。由于 $exp(ωϕ(x,y))exp(\omega \phi(x,y))$ 可以大于1，因此不能假设它等于这个概率，而是正比于概率。

因此：
$\frac{P(x,y)}{P(x)} = \frac{P(x,y)}{\sum_{y^{'}} P(x,y)} = \frac{exp(\omega\phi(x,y))/R}{\sum_{y^{'}}exp(\omega\phi(x,y^{'}))/R} = \frac{exp(\omega\phi(x,y))}{\sum_{y^{'}}exp(\omega\phi(x,y^{'}))}$

2.HMM和CRF本质相同

HMM和CRF模型的其实是同一个东西，可以认为CRF是HMM模型的另一种表示和训练方法，只是两者略有不同。

在HMM中：
$P(y_1|start)\prod_{l=1}^{L-1}P(y_{l+1})P(y_L|end)\prod_{l=1}^LP(x_L|y_L)$
对等式两边取log对数：
$logP(y_1|start)+\sum_{l=1}^{L-1}logP(y_{l+1})+logP(y_L|end)+\sum_{l=1}^LlogP(x_L|y_L)$

以 $∑l=1LlogP(xL∣yL)\sum_{l=1}^LlogP(x_L|y_L)$ 为例：
$\sum_{l=1}^LlogP(x_L|y_L) = \sum_{s,t}logP(t|s)\times N_{s,t}(x,y)$
即序列中标签序列元素 $y_L$ 对应单词序列元素 $x_L$ 的概率累加等于单词t被标记为标签s的概率乘以序列中单词t被标记为标签s的次数。

下例演示了该公式的一个实例：
在这里插入图片描述
$l o g P (x, y)$ 中其他公式同理可得：

因此 $l o g P (x, y)$ 可以写成：

其中紫色部分及代表1中的权重 $ω\omega$ ，红色部分代表1中关于x，y的特征向量 $ϕ(x,y)\phi(x,y)$ 。

3. CRF的训练

给定数据集 ${(x1,yˇ1),(x2,yˇ2),...,(xn,yˇn)}\{(x^1,\check{y}^1),(x^2,\check{y}^2),...,(x^n,\check{y}^n)\}$ ，要训练 $ω∗\omega^*$ ,使得 $ω∗=argmaxωO(ω)\omega^* = argmax_\omega O(\omega)$
$O(ω)=∑n=1NlogP(yˇn∣xn)O(\omega) = \sum_{n=1}^N logP(\check{y}^n|x^n)$

有1中： $=\frac{exp(\omega\phi(x,y))}{\sum_{y^{'}}exp(\omega\phi(x,y^{'}))}$

$logP(\check{y}^n|x^n) = logP(x^n,\check{y}^n)-log\sum_{y^{'}}P(x^n,y^{'})$
也就是最大化我们序列中看到的标记，最小化那些不仅在正确序列中能看到，在其他可能的错误序列中也经常出现的标记。

计算梯度：
在这里插入图片描述

在这里插入图片描述
由于是最大化目标函数，因此是梯度上升而非梯度下降：
$ws,t=ws,t+η∂O(ω)∂ωs,tw_{s,t} = w_{s,t} + \eta \frac{\partial O(\omega)}{\partial\omega_{s,t}}$

训练得到 $ω\omega$ 后
$argmax_{y\in Y}P(y|x) = argmax_{y\in Y}P(x,y) = argmax_{y\in Y}\omega \phi(x,y)$

可以使用维特比算法得到最优序列。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。