NLP学习记录九：注意力分数

原创

已于 2025-02-23 11:02:20 修改 · 1k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #学习 #深度学习 #人工智能

于 2024-08-28 14:24:55 首次发布

目录

1.2 实现原理

二、何为注意力分数？

三、注意力评分函数

3.1 加性注意力

3.2 缩放点积注意力

四、代码实现

一、回顾

1.1 理解KQV

举一个简单的例子：假设我想吃中餐。

餐馆有菜：牛排（惠林顿、西冷、战斧）、寿司（三文鱼、鳗鱼、吞拿鱼）、火锅（毛肚、涮肉、鸭血）。

· Query（Q）：可理解为需求。在此例中，Q=“我想要吃中餐”（我想找什么？）。

· Key（K）：关键词/代表性特征。在此例中，K为菜系，K1=“牛排”，K2=“寿司”，K3=“火锅”（每个菜系的名称是什么？）。

· Value（V）：信息的实际内容。在此例中，V为菜系里包含的菜名，V1=“惠林顿、西冷、战斧”，V2=“三文鱼、鳗鱼、吞拿鱼”，V3=“毛肚、涮肉、鸭血”。

寻找我想吃的菜（注意力机制）的过程：

1、匹配（Q和K的相似度）：

Q和K1完全不匹配，零分；Q和K2有一点点匹配，低分；Q和K3匹配度很高，高分。

2、加权（关注重要内容）：

根据匹配分数，火锅菜系里的菜会被赋予高权重，其它两种菜系的内容则被忽略。

3、结果（输出Value）：

最终餐馆忽略了另两种菜系的内容，给我上了毛肚、涮肉和鸭血，我如愿以偿吃到了火锅。

1.2 实现原理

NLP学习记录八简单讲述了注意力机制的实现原理与过程，其整体框架如下图所示：

简单而言，其实就是先让输入的查询值Q和已有分类的键K逐一比较，通过相似程度确定已有分类的值V在输出中占有的注意力权重，最终估计器输出就是所有值的加权和。

二、何为注意力分数？

在NLP学习记录八中，我们使用了softmax函数和高斯核来计算注意力权重：

而参与softmax归一化的值，则可称之为注意力分数：

选择不同的注意力评分函数会导致不同的注意力汇聚操作，接下来介绍两种流行的评分函数。

三、注意力评分函数

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。