贴一下汇总贴:论文阅读记录
论文链接:《DocNLI: A Large-scale Dataset for Document-level Natural Language Inference》
一、摘要
自然语言推理 (NLI) 被制定为解决各种 NLP 问题(例如关系提取、问答、摘要等)的统一框架。 由于大规模标记数据集的可用性,它在过去几年中得到了深入研究。然而,大多数现有研究仅关注句子级推理,这限制了 NLI 在下游 NLP 问题中的应用范围。这项工作展示了 DocNLI——一个新构建的用于文档级 NLI 的大规模数据集。DocNLI 从广泛的 NLP 问题转化而来,涵盖多种类型的文本。前提始终保持在文档粒度上,而假设的长度从单个句子到包含数百个单词的段落不等。此外,DocNLI 的工件非常有限,不幸的是,这些工件广泛存在于一些流行的句子级 NLI 数据集中。我们的实验表明,即使没有微调,在 DocNLI 上预训练的模型在流行的句子级基准测试中也表现出良好的性能,并且可以很好地推广到依赖文档粒度推理的域外 NLP 任务。针对特定任务的微调可以带来进一步的改进。可以在以下位置找到数据、代码和预训练模型:github。
二、结论
在这项工作中,我们收集并发布了一个大规模的文档级NLI数据集DOCNLI。它涵盖了多种体裁和多种长度范围的前提和假设。我们希望这个数据集可以帮助解决一些需要文档级推理的NLP问题,如QA、摘要、事实检查等。实验表明,DOCNLI模型可以很好地概括下游的NLP任务和一些常用的句子级NLI任务。
三、数据集介绍
- DOCNLI与最终的NLP任务高