本文是LLM系列文章,针对《Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models》的翻译。
摘要
准确和可解释的用户满意度估计(USE)对于理解、评估和持续改进会话系统至关重要。用户对通用(ChatGPT和Bing Copilot)和面向任务(客服聊天机器人)对话系统中的不同对话模式表示满意或不满。现有的基于特征化ML模型或文本嵌入的方法在提取可推广模式方面存在不足,并且难以解释。在这项工作中,我们表明LLM可以比基于嵌入的方法更有效地从用户的自然语言话语中提取可解释的用户满意度信号。此外,LLM可以通过使用标记示例的监督的迭代提示框架来针对USE进行定制。我们提出的方法,用户满意度的监督提示准则(SPUR),不仅具有更高的准确性,而且更具可解释性,因为它通过具有详细细分的学习准则来评分用户满意度。
1 引言
2 问题定义和相关工作
3 SPUR
4 评估
5 结论和局限性
在本文中,我们提出了用户满意度