Learning from Dialogue after Deployment: Feed Yourself, Chatbot!

本文提出了一种自馈对话机器人,它能从部署后的对话中抽取新样本进行学习,以提高对话技能。机器人通过评估用户满意度,当用户满意时,用户的回复成为新的学习目标;不满意时,请求反馈并学习预测反馈。实验表明,这种方法能显著提高机器人的对话能力,无论初始监督数据量如何。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

对于一个 bot 来说,它一生中看到的最多的对话是出现在它被部署到生产环境之后,这就产生了大量未被利用的训练数据。本文提出一种 自馈对话机器人(self-feeding chatbot),它能够从它自己参与的对话中自动抽取新的训练样本。

在该 bot 参与对话的过程中,它还会评估用户的满意度。

  • 当对话进展良好时,用户的回复成为需要模拟的训练样本
  • 当 bot 认为自己犯了错误时,它会询问用户以获得反馈
    • 学习预测这种反馈可以进一步提高 bot 的对话技能

在 PERSONACHAT 闲聊数据集上(包含 131k 训练样本),我们发现无论传统监督的数量如何,使用自馈对话机器人从对话中学习都显著提高了性能。

1 Introduction

训练一个 bot 使之像人类那样对话需要大量的监督。最常见的方式是训练一个模型来模拟大量众包或爬取的对话语料中的人类回复 (Serban et al., 2015)。这些对话语料要么收集代价高昂,要么其设置和真实的部署环境存在很大差别。相比之下,bot 最理想的学习方式是部署后从自己参与的对话中学习,因为此时遇到的样本往往是丰富、特定于具体任务、动态的以及廉价的。这和人类学习说话的方式类似,不仅仅是观察其他人进行 “专家级”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值