深度强化学习框架：目标导向的VQG与中间奖励

PDF文件

943KB | 更新于2024-06-20 | 13 浏览量 | 举报收藏

立即下载

本文主要探讨了一种新颖的深度强化学习框架，该框架专注于解决视觉问题生成（VQG）中的目标导向挑战。传统上，视觉问答（VQA）虽然受到广泛关注，但VQG任务更具复杂性，因为它要求生成一系列能有效引导用户实现总体目标的问题。当前的问题在于，许多现有方法倾向于生成冗长且价值有限的询问，而非提供关键信息。作者们提出了一种基于三种中间奖励的策略：目标实现奖励、渐进奖励和信息性奖励。目标实现奖励促使模型生成能直接推动整体目标达成的问题，避免了空洞查询的产生。渐进奖励强调问题序列的连贯性和逐步逼近目标，而信息性奖励则确保生成的问题能揭示有助于实现目标的有价值信息。具体实现中，研究者构建了一个深度强化学习模型，该模型在GuessWhat?! 数据集上进行了实验验证。结果表明，通过这种框架生成的问题不仅能引导用户准确地找到特定目标，还能提高测试和开发者的工作效率，尤其是在成功率方面有显著提升。文章的关键技术在于设计适应目标导向的奖励机制，以及如何将这些奖励融入到生成问题的过程中，使得模型能够生成既简洁又能有效引导对话的视觉问题。此外，研究还强调了提问者知识和动机在生成问题中的重要作用，表明一个恰当的问题能够最大限度地利用对话历史和图像内容来推动目标的实现。这篇论文为解决视觉问题生成中的目标导向问题提供了一个创新的解决方案，有望推动该领域的进一步发展，并在实际应用中提高人机交互的效率和有效性。

Junjie Zhang Qi Wu et al.

轮对话

…

Oracle

…

Oracle

…

Oracle

：耶

…

：否

…

：没有

…

：

问

：我是一个亿？

：是家具吗？

Q：是饮料

吗？

<Sr>

猜测者

（q

：

−

，

：

−

，

）

猜测者

（q

：

，

：，

）

猜测者

CNN

[第

页

，

[

，

图像特征

VQG

进展

信息性

VQG

提问

生

成部

中级

奖励

gol

−

eed

成功

VQG

图2：所提出的VQG代理在整个游戏环境中的框架。目标对象

被分配给

Oracle，但VQG和Guesser不知道它。然后VQG生成一系列问题，由Oracle回

答。在训练过程中，我们让Oracle基于每一轮的所有对象回答问题，并测量

信息性

奖励，我们还让Guesser生成概率分布来测量

渐进

奖励。最后，我们考

虑回合数

，并根据成功状态设置

目标实现

奖励。REINFORCE采用这些中间

奖励来优化VQG代理

将VQA和VQG视为双重学习过程，在端到端框架中对其进行联合培训

虽然这些作品可以产生与图像相关的有意义的问题，但提出这些问题

的动机相当弱，因为它们与任何目标都无关以往研究的另一个问题相

反，在我们的工作中，我们的目标是开发一个可以学习提出现实问题

的代理，这有助于实现特定目标。

面向目标的可视对话生成技术是近年来研究的热点。在[5]中，Das

等人

介绍了一种用于视觉对话生成的强化学习机制。他们建立两个

RL代理分别对应的问题和答案的生成，最终找到一个看不见的图像

从一组图像。问题代理预测图像的特征表示，并且通过测量表示与真

实特征相比有多接近来给出奖励函数然而，我们专注于鼓励代理产生

的问题，针对最终目标，我们采用了不同的中间奖励，以实现在问题

生成过程中此外，他们模型中的问题生成代理只根据对话历史提出问

题，而不涉及视觉信息。在[18]中，Florian

等人

提出采用强化学习来

解决GuessWhat游戏的问题生成，通过引入成功的最终状态作为唯一

奖励。我们共享类似的主干思想，但存在一些技术差异。其中一个最

显著的区别是，以前的工作只考虑是否实现最终目标作为奖励，而我

们分配不同的

剩余15页未读，继续阅读

cpongm

粉丝: 6

深度强化学习框架：目标导向的VQG与中间奖励

面向数据可视化大屏的自动代码生成工具的研究与实现

基于Django的国内疫情数据可视化Web系统源码.zip

动漫影视数据分析实战：【数据收集到可视化】的全流程优化

代码重用与模块化：打造可维护的烟花特效代码库

【塔防游戏中的脚本化与自定义】：激发玩家创作内容的可能性

计算机系学生科协主席述职报告(四篇).docx

【系统内存管理】基于kpromoted的热点页迁移机制：CXL远程内存环境下页面热度检测与动态提升系统设计

PLC自动化专业社会实践报告.doc

云计算技术对固定资产管理的应用论文.doc

人工智能在化工行业的创新应用与产业版图重构研究.docx

软件工程论文参考文献范文.doc

空天地协同网络联合轨迹优化与计算卸载算法设计.docx

大学毕业设计---基于c51单片机的步进电机控制系统.doc

图形用户界面 （GUI） 来帮助电机和电网设计人员分析三相电路。.zip

网络技术合作协议书通用范本.doc

计算机处理员试题及答案.doc

软件注册商代理协议书.docx

2019年计算机专业个人技术总结.doc

网站主页制作协议.doc

2022年单片机技术与实践教案chap2.ppt

[视觉硬件] 设置光源亮暗时长，避免造成负荷

数据库营销类型及数量描述.doc

最新资源

图形用户界面（GUI）来帮助电机和电网设计人员分析三相电路。.zip