【论文泛读67】渐进式预训练密集语料库索引用于开放域问答

本文介绍了一种新的预训练方法,通过改进的数据生成策略和有效的负样本采样,降低了对计算资源的需求,从而在开放域问答中实现了比ORQA更强的检索性能。该方法利用预训练序列到序列模型生成高质量问题,采用渐进式预训练,最终在三个数据集上超越了传统TF-IDF等方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贴一下汇总贴:论文阅读记录

论文链接:《Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering》

一、摘要

为了从大型语料库中提取答案,开放域问答系统(QA)通常依靠信息检索(IR)技术来缩小搜索空间。由于效率高,通常使用标准倒排索引方法(例如TF-IDF)。但是,它们的检索性能受到限制,因为它们仅使用浅而稀疏的词汇特征。为了打破IR瓶颈,最近的研究表明,通过预训练将段落索引到密集向量中的有效段落编码器,可以实现更强的检索性能。训练后,可以将语料库预编码为低维向量,并将其存储在索引结构中,在该索引结构中,可以将检索有效地实现为最大的内积搜索。

尽管取得了令人鼓舞的结果,但预训练这种密集的索引非常昂贵,并且通常需要非常大的批处理量。在这项工作中,我们提出了一种简单且节省资源的方法来对段落编码器进行预训练。首先,我们没有使用启发式创建的伪问题段落对进行预训练,而是利用现有的预训练序列到序列模型来构建强大的问题生成器,以创建高质量的预训练数据。其次,我们提出一种渐进式预训练算法,以确保每批样品中均存在有效阴性样品。在三个数据集中,我们的方法优于现有的密集检索方法,该方法使用7倍以上的计算资源进行预训练。

二、结论

我们提出了一种有效的预处理稠密语料库索引的方法,可以替代开放领域问答系统中传统的信息检索方法。所提出的方法由更好的数据生成策略和用于预处理的简单而有效的数据采样协议提供动力。通过仔细的微调,我们获得了比使用更多计算资源的ORQA更强的QA性能。我们希望我们的方法能够在这个方向上鼓励更节能的预处理方法,以便密集检索范例能够更广泛地应用于不同的领域。

三、model

渐进式预审方法:
在这里插入图片描述
基于聚类的预处理算法:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值