【论文泛读131】DocNLI:用于文档级自然语言推理的大规模数据集

本文介绍了DocNLI,一个专为文档级自然语言推理设计的大规模数据集,旨在推动NLP领域的发展。DocNLI包含多样化的文本,前提为完整文档,假设从单句到长段落不等。实验显示,基于DocNLI预训练的模型在句子级任务和文档级任务上表现出色,为QA、摘要等任务提供解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贴一下汇总贴:论文阅读记录

论文链接:《DocNLI: A Large-scale Dataset for Document-level Natural Language Inference》

一、摘要

自然语言推理 (NLI) 被制定为解决各种 NLP 问题(例如关系提取、问答、摘要等)的统一框架。 由于大规模标记数据集的可用性,它在过去几年中得到了深入研究。然而,大多数现有研究仅关注句子级推理,这限制了 NLI 在下游 NLP 问题中的应用范围。这项工作展示了 DocNLI——一个新构建的用于文档级 NLI 的大规模数据集。DocNLI 从广泛的 NLP 问题转化而来,涵盖多种类型的文本。前提始终保持在文档粒度上,而假设的长度从单个句子到包含数百个单词的段落不等。此外,DocNLI 的工件非常有限,不幸的是,这些工件广泛存在于一些流行的句子级 NLI 数据集中。我们的实验表明,即使没有微调,在 DocNLI 上预训练的模型在流行的句子级基准测试中也表现出良好的性能,并且可以很好地推广到依赖文档粒度推理的域外 NLP 任务。针对特定任务的微调可以带来进一步的改进。可以在以下位置找到数据、代码和预训练模型:github

二、结论

在这项工作中,我们收集并发布了一个大规模的文档级NLI数据集DOCNLI。它涵盖了多种体裁和多种长度范围的前提和假设。我们希望这个数据集可以帮助解决一些需要文档级推理的NLP问题,如QA、摘要、事实检查等。实验表明,DOCNLI模型可以很好地概括下游的NLP任务和一些常用的句子级NLI任务。

三、数据集介绍

  • DOCNLI与最终的NLP任务高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值