贴一下汇总贴:论文阅读记录
论文链接:《Injecting Numerical Reasoning Skills into Language Models》
一、摘要
众所周知,大型的预训练语言模型(LM)可以对大量的语言信息进行编码。但是,仅从语言建模目标中很难学习诸如数字推理之类的高级推理技能。因此,现有的用于数字推理的模型已经使用了灵活性有限的专用架构。在这项工作中,我们表明数值推理适合于自动数据生成,因此,可以通过生成大量数据并在多任务设置中进行训练,将这一技能注入经过预先训练的LM中。我们证明,根据该数据对模型GenBERT进行预训练,可以显着提高DROP的性能(49.3 →72.3 F1),在使用简单通用的编码器-解码器体系结构的同时,达到与可比尺寸的最新模型相匹配的性能。此外,GenBERT可以很好地推广到数学单词问题数据集,同时在标准RC任务上保持高性能。我们的方法为将技能注入大型预先训练的LM提供了一般方法,只要该技能适合于自动数据扩充即可。
二、结论
大型预先训练的LM缺乏高水平的技能,如数字推理。因此,目前的模型,执行数字推理的一个预先训练的线性模型求助于定制模块与有限的灵活性。在这项工作中,假设自动数据生成是可能的,我们提出了一种向LMs注入额外技能的通用方法。我们将我们的方法应用于文本上的数字推理任务,使用一个称为GENBERT的通用模型,以及一个生成大量合成示例的简单框架。我们的实验证明了我们的方法的有效性,表明GENBERT成功地学习了数值技巧,并且表现与相同规模的最先进的NRoT模型相当。
通过实验:
- GENBERT能够解决数字推理的预训练任务。
- 对这些任务的预培训为GENBERT提供了1)达到与DROP (Dua等人,2019年)上同等规模的最先进