贴一下汇总贴:论文阅读记录
论文链接:《UnifiedQA: Crossing Format Boundaries With a Single QA System》
一、摘要
问答(QA)任务已经使用多种格式提出,例如提取跨度选择、多项选择等。这导致了格式专门化的模型,甚至导致了质量保证社区的隐性分裂。我们认为这种界限是人为的,也许是不必要的,因为我们试图教授的推理能力不受这种形式的支配。作为证据,我们使用语言建模的最新进展来构建一个单一的预先培训的质量保证模型UNIFIEDQA,该模型在跨越4种不同格式的20个质量保证数据集上表现良好。UNIFIEDQA的性能与8个不同的模型相当,这些模型是在单独的数据集上进行训练的。即使面对12个未见过的观察格式数据集,UNIFIEDQA的表现也令人惊讶地好,显示出来自其外部训练数据的强大泛化能力。最后,将这种预先训练好的质量保证模型微调成专门的模型,可以在10个事实和常识质量保证数据集上实现新的艺术状态,从而将统一质量保证确立为构建质量保证系统的一个强有力的起点。
二、结论
问答社区对强模型的设计进行了卓有成效的探索,但仍停留在单个问答格式的范围内。我们认为,这种界限是人为的,甚至会限制系统的性能,因为所教授和探索的所需推理能力与特定的格式无关。原则上,一种格式的培训数据可以帮助质量保证系统在另一种格式的问题上表现得更好。
考虑到这种直觉,我们提出了统一质量保证,这是一个基于文本到文本范式的单一的预先训练的质量保证系统,寻求在四种常见的质量保证格式之间实现统一。我们表明,即使使用简单的多格式训练方法,UNIFIEDQA也能获得与8个特定于数据集的专家模型(6.1)相当的性能,同时还能很好地推广到许多未见过格式的数据集(6.2)。与此同时,我们证明了UNIFIEDQA是构建质量保证系统