
大模型
文章平均质量分 69
DayDayUper___
Day Day up
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
手算示例:在神经网络中进行后门攻击及验证
经过一次训练后,模型输出仍为0,而目标是5。显然,我们需要更多训练迭代来使模型学会后门。简化的手算示例显示了基本步骤:前向传播、计算损失、反向传播和更新权重。实际后门攻击通常更复杂,需要更复杂模型和更多训练样本。(省略详细计算过程)(省略详细计算过程)(省略详细计算过程)(省略详细计算过程)原创 2024-05-21 11:25:06 · 619 阅读 · 0 评论 -
简单的Transformer模型手算示例
通过这个手算示例,我们展示了Transformer模型使用三头注意力机制、每个注意力头的维数为4,隐藏层维度为5的前向传播、计算损失和反向传播的基本过程。为了简化计算,我们对注意力计算和softmax进行了近似处理。实际应用中,Transformer模型的计算会复杂得多,但基本原理是相同的。这个例子有助于理解Transformer模型的基本工作机制和训练过程。原创 2024-05-21 11:10:18 · 1311 阅读 · 0 评论 -
学习笔记<2024.4.15-2024.4.21>:Attention Is All You Need
Transformer中Self-Attention以及Multi-Head Attention详解。原创 2024-04-17 16:49:15 · 161 阅读 · 0 评论