文本理解与图像描述技术解析
立即解锁
发布时间: 2025-08-30 00:43:57 阅读量: 4 订阅数: 22 AIGC 

### 文本理解与图像描述技术解析
#### 1. 专家混合网络与多语言模型
专家混合网络由门控网络控制,门控网络决定哪个网络处理输入,仅需计算少数网络的输出,专家网络可以是不同的Transformer层。多语言模型在参数足够大时,能为所有语言带来显著提升,即使资源丰富的语言也能受益,但计算成本极高。
|模型类型|参数规模|适用语言|效果|
| ---- | ---- | ---- | ---- |
|简单双语翻译模型| - | - | - |
|多语言模型|4亿 - 500亿参数|大训练集语言、小训练集语言|参数足够大时,为所有语言提供显著改进|
#### 2. 图像文本描述
图像字幕的目标是用自然语言自动为图像创建描述,这不仅要列出图像中的重要对象,还要描述对象间的关系、意义和角色。例如MS - COCO数据集中的婴儿图像,重要场景是婴儿在玩手机而非发短信,这需要日常知识。合适的图像描述系统能帮助视障人士感知图像,也是大型图像数据库搜索图像的基础。
##### 2.1 训练数据集
- **MS - COCO数据集**:包含120,000张图像,每张图像有五种不同的文本注释。
- **Conceptual Captions数据**:由Sharma等人创建,包含330万张带描述的图像,这些图像从网络收集并进行文本注释,图像描述根据信息内容、流畅性和可学习性选择,专有名称被替换为通用术语。
##### 2.2 图像描述生成系统
Sharma等人使用三组件系统生成图像描述:
1. **深度CNN**:接收输入图像,为每个8×8像素区域生成图像嵌入向量x。
2. **编码器模块**:将x转换为隐藏向量h,其任务是关联从CNN提取的最相关特征,为生成描述做准备。
3. **解码器**:从h生成图像描述z作为输出。
```mermaid
graph LR
A[输入图像] --> B[深度CNN]
B --> C[x向量]
C --> D[编码器模块]
D --> E[隐藏向量h]
E --> F[解码器]
F --> G[图像描述z]
```
##### 2.3 模型比较
Sharma等人比较了两种变体:
- **L2L**:由LSTM编码器和解码器组成,类似于语言翻译模型。
- **T2T**:使用Transformer模型作为编码器和解码器。
通过人类评估模型性能,在Flickr数据上,Transformer模型T2T表现更好,但与人类性能(96.0%)相比,仍有很大差距(T2T的1 + 评级为65.9%)。新方法(X. Li等人,2020)能详细描述图像对象及其位置,产生更好的图像字幕。
|模型|1 x good|2 x good|3 x good|
| ---- | ---- | ---- | ---- |
|L2L|57.1%|41.8%|27.7%|
|T2T|65.9%|50.6%|35.5%|
|人类|96.9%|90.3%|78.5%|
#### 3. 深度神经网络预测解释
##### 3.1 解释的必要性
深度神经网络在许多应用中表现良好,但在个别情况下,不清楚结果是如何构建的,也难以判断结果是否可信,即它们是黑盒模型。欧盟的《通用数据保护条例》(GDPR)规定,个人在自动化决策时有获得“逻辑有意义解释”的权利,例如计算信用评分时。可解释模型对于确保用户对训练系统的信心、获得公平合理的决策以及深入理解分析数据至关重要。
##### 3.2 全局解释模型
解释DNN的一种方法是确定简单的全局解释模型,主要包括决策树、规则集和线性模型。
- **决策树**:依次回答关于单个特征的问题,根据答案回答其他特征的问题,最终根据特征组合对所需数量进行预测。
- **规则集**:依次处理规则,规则由特征值的逻辑条件组成,为辅助变量或所需数量给出预测,规则必须按指定顺序处理。
- **线性模型**:预测输出变量(如温度或概率),输入特征乘以不同因子并汇总,因子显示每个输入变量的正负贡献,“const”
0
0
复制全文
相关推荐









