自然语言处理与计算机视觉中的变革:从Transformer到预训练模型
立即解锁
发布时间: 2025-09-02 01:48:38 阅读量: 11 订阅数: 17 AIGC 

### 自然语言处理与计算机视觉中的变革:从Transformer到预训练模型
#### 1. Transformer在计算机视觉中的应用
并非每个人都能在两居室公寓中放置一个超级计算集群,因此人们对创建小型、轻量级模型的兴趣日益浓厚。此外,Transformer正越来越多地应用于其他领域,计算机视觉便是其中之一。
虽然Transformer在现代自然语言处理(NLP)中无处不在,但它的应用并不局限于此。随着计算和GPU资源的获取难度降低,Transformer在计算机视觉任务中的应用也越来越受到重视。近期最突出的两个例子是视觉Transformer(ViT)和基于Transformer的目标检测(DETR)。
计算机视觉中最常见的架构是卷积神经网络(CNN)。它使用卷积层来转换图像,类似于注意力层。然而,卷积层只能学习局部特征,并且不一定能产生相同大小的输出。与循环神经网络(RNN)不同,CNN已经很好地实现了并行化,英伟达的许多工程师花费多年时间构建了优化算法,以在GPU上极快地执行卷积操作。那为什么还有人尝试在计算机视觉中使用Transformer呢?
实际上,关于Transformer在计算机视觉中的应用还没有定论。我们已经看到了一些有希望的结果,但$n^2$的内存复杂度难以忽视,特别是当我们已经有一个多年来运行良好的并行化快速架构时。卷积操作可能不会很快消失,但视觉Transformer仍值得关注。其中一个好处是,在使用自注意力训练基于Transformer的视觉网络后,我们可以将注意力权重用作可解释性工具。
注意力可视化在计算机视觉中实际上更直观——高注意力权重意味着网络在进行预测时“聚焦”于该区域。例如,我们构建一个输入图像并生成标题的网络,这里会有一个图像编码器和一个文本解码器。然后,我们可以使用编码器 - 解码器的注意力权重在原始图像上创建一个热图。
#### 2. Transformer架构总结
- **起源**:Transformer由Vaswani等人在2017年的论文《Attention Is All You Need》中首次提出。
- **架构特点**:它去除了RNN架构中的循环部分,仅使用注意力机制,从而可以在句子间并行化处理。
- **注意力机制**:是神经网络中的一种层,允许收集和组合“全局特征”(来自大输入序列中每个点的信息)。它有多种形式,应用于多个领域和架构,不仅仅是Transformer。
- **多头自注意力(MHSA)**:Transformer架构中使用的标准注意力机制,将输入转换为小的键空间,并多次重复点积注意力操作。
- **优缺点**:注意力机制非常强大,但计算成本高。标准的MHSA具有$n^2$的内存成本,例如句子中有10个单词,就需要存储10 * 10 = 100个注意力权重。注意力权重可以解释为抽象意义上“x和y的关联程度”,并且可以作为有用的可视化工具。目前,关于如何构建新的、计算效率更高的注意力机制仍在进行大量研究,大多数从业者为了简单起见仍使用MHSA。
下面用表格总结Transformer的相关信息:
| 项目 | 详情 |
| ---- | ---- |
| 起源论文 | 《Attention Is All You Need》(2017年) |
| 架构改进 | 去除RNN循环部分,仅用注意力机制 |
| 注意力机制作用 | 收集和组合全局特征 |
| 标准注意力机制 | 多头自注意力(MHSA) |
| 优点 | 可并行化,能处理全局特征 |
| 缺点 | 计算成本高,$n^2$内存复杂度 |
#### 3. 计算机视觉的ImageNet时刻
“ImageNet时刻”值得我们花时间来解释。ImageNet是一个计算机视觉数据集,最初于2009年发布。它成为了图像分类(计算机视觉的核心任务)进展的基准,并催生了一年一度的计算机视觉竞赛,以确定哪个研究团队能以最低的错误率识别数据集中图像中的对象。
竞赛的高关注度推动了计算机视觉领域自2010年以来的显著进步。从2009年到2017年,获胜准确率从71.8%跃升至97.3%,超越了人类能力,引发了全球对机器学习潜力的关注。回顾过去,2012年是计算机视觉的突破之年,即所谓的原始ImageNet时刻。当年,由Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky领导的多伦多大学团队以10.8%的优势击败了其他团队。这一表现震惊了人工智能研究界,并促使更多商业企业关注计算机视觉。在接下来的几年里,企业使用预训练的ImageNet模型解决了广泛的计算机视觉任务,包括模型未明确训练的任务。可以说,ImageNet是计算机视觉突破性能和应用便利性障碍的时刻。
下面是ImageNet发展历程的mermaid流程图:
```mermaid
graph LR
A[2009年:ImageNet数据集发布] --> B[成为图像分类基准]
B --> C[催生年度竞赛]
C --> D[2010年:推动计算机视觉进步]
D --> E[2012年:多伦多大学团队取得突破]
E --> F[企业开始使用预训练模型]
F --> G[解决广泛计算机视觉任务]
```
#### 4. NLP的突破:预训练模型的力量
与2012年计算机视觉的突破类似,2018年是NLP的突破之年。这一年,世界开始更加认真地关注NLP在企业中的应用潜力,此后商业应
0
0
复制全文
相关推荐









