基于GuessWhat?!数据集的模型分析与比较
立即解锁
发布时间: 2025-08-30 01:34:12 阅读量: 10 订阅数: 16 AIGC 

### 基于GuessWhat?!数据集的模型分析与比较
#### 1. 数据集特征
GuessWhat?!数据集具有一些独特的特征,这些特征会对模型的表现产生影响:
- **干扰项数量**:较长的人类对话中包含更多与目标对象同一类别的干扰项,这对模型来说是一个挑战,因为猜测器通常会接收每个候选对象的类别和坐标信息。
- **目标对象面积**:在较长的对话中,目标对象所占的面积更小。
- **目标对象类别分布**:目标对象中最具代表性的类别“人”出现的频率较低,目标对象的分布不均衡。
- **稀有词汇**:较长的对话中包含更多在训练集中很少出现的词汇(即出现次数少于15次的词汇)。
#### 2. 模型架构
所有评估的模型都采用了编码器 - 猜测器的骨架结构,猜测器接收每个候选对象的类别标签和空间坐标。不同的模型在计算隐藏对话状态的方式上有所不同,主要分为仅接收语言输入的盲模型和同时接收语言和视觉输入的多模态模型。
##### 2.1 仅语言编码器
- **LSTM**:将候选对象的表示与仅处理对话历史的LSTM的最后隐藏状态融合。
- **RoBERTa**:用RoBERTa替换LSTM,RoBERTa是一种基于Transformer的编码器,经过了预训练。使用RoBERTaBASE,它在16GB的英语文本上进行了500K步的掩码语言建模预训练,有12个自注意力层,每层12个头。使用CLS、SEP和EOS三个特殊标记,将CLS标记对应的输出经过线性层和tanh激活函数得到隐藏状态,提供给猜测器。比较了预训练模型(RoBERTa)和从头开始训练的模型(RoBERTa - S)。
##### 2.2 多模态编码器
- **V - LSTM**:在LSTM模型的基础上增强了视觉模态,将语言和视觉表示拼接,并通过MLP进行缩放,结果经过线性层和tanh激活函数得到隐藏状态,作为猜测器的输入。使用在ImageNet上预训练的ResNet - 152提取视觉向量。
- **LXMERT**:用于评估通用多模态编码器的性能。它用Faster R - CNN检测的36个最显著区域的位置感知对象嵌入表示图像,用位置感知的随机初始化词嵌入处理文本输入。视觉和语言表示都经过基于自注意力层的专门Transformer编码器处理,然后通过跨模态编码器生成增强的单模态表示和联合表示。使用CLS和SEP特殊标记,SEP既用于分隔序列,也用于表示文本输入的结束。LXMERT在五个任务上进行了预训练,有19个注意力层(语言编码器9个自注意力层,视觉编码器5个自注意力层,5个跨注意力层)。同样比较了预训练版本(LXMERT)和从头开始训练的版本(LXMERT - S)。
#### 3. 实验结果
##### 3.1 任务成功率
| 模型 | 所有游戏 | 3 - 回合对话 | 5 - 回合对话 | 8 - 回合对话 |
| ---- | ---- | ---- | ---- | ---- |
| LSTM | 64.7 | 72.5 | 59.3 | 47.3 |
| RoBERTa - S | 64.2 | 72.7 | 58.3 | 45.1 |
| RoBERTa | 67.9 | 75.3 | 60.1 | 51.0 |
| V - LSTM | 64.5 | 71.9 | 59.3 | 47.2 |
| LXMERT - S | 64.4 | 72.7 | 58.9 | 46.1 |
| LXMERT | 69.2 | 80.5 | 63.1 | 45.0 |
预训练的Transformer模型LXMERT和RoBERTa取得了最高的结果,多模态模型LXMERT的得分略高(69.2 vs. 67.9)。RoBERTa的高准确率表明对话历史本身对于选择正确的目标对象具有相当的信息价值。LXMERT在短对话中表现出色,在3 - 回合对话中达到了80.5%的准确率,但在对话变长时准确率下降较大;而RoBERTa受对话长度的影响较小。
##### 3.2 模型对训练策略的敏感性
为了研究模型是否对训练期间看到的策略敏感,将测试集中的对话历史顺序反转。实验结果表明,Transformer模型比LSTM模型对QA对的提供顺序不太敏感,预训练阶段似乎进一步减轻了顺序变化的影响。具体结果如下表所示:
| 模型 | 真实顺序(GT) | 反转顺序(Reversed) |
| ---- | ---- | ---- |
| 盲LSTM | 64.7 | 56.0 |
| RoBERTa - S | 64.2 | 57.8 |
| RoBERTa | 67.9 | 66.5 |
| V - LSTM | 64.5 | 51.3 |
| LXMERT - S | 64.4 | 57.8 |
| LXMERT | 69.2 | 65.1 |
##### 3.3 最后一个问题的作用
分析模型在接收完整对话历史、不接收最后一轮对话和仅接收最后一轮对话时的表现:
| 模型 |
0
0
复制全文
相关推荐










