23年10月来自谷歌、麻省大学和OpenAI的论文“FreshLLMs: Refreshing Large Language Models With Search Engine Augmentation“。
大多数大语言模型(LLMS)只训练一次,从不更新;因此,他们缺乏动态地适应不断变化世界的能力。这项工作在回答测试当前世界知识问题的背景下,对LLM生成文本的真实性进行了详细研究。具体来说,FRESHQA,一种动态QA基准,涵盖了各种各样的问答类型,包括需要快速变化的世界知识问题,以及需要揭穿的虚假前提问题。在一个双模式评估程序下对一系列封闭和开源LLMs进行了基准测试,该程序允许测量正确性和幻觉性。通过5万多人的评估,揭示了这些模型的局限性,并展示了显著的改进空间:例如,所有模型(无论模型大小)都在快速变化的知识和虚假前提的问题上挣扎。
受这些结果的启发,作者提出了FRESHPROMPT,一种简单的少样本提示方法,将搜索引擎检索的相关和最新信息合并到提示中,大大提高了LLM在FRESHQA上的性能。实验表明,FRESHPROMPT优于竞争对手的搜索引擎增强提示方法,如SELF-ASK(Press 2022),以及商业系统,如PERPLEXITY.AI。对FRESHPROMP的进一步分析表明,检索的证据数量及其顺序,在影响LLM生成答案的正确性方面起着关键作用。此外,与鼓励更冗长答案的方法相比,LLM生成简洁直接的答案有助于减少幻觉现象。
先说FRESHQA。
招募NLP研究人员和在线自由职业者撰写不同难度的问题和主题,这些问题的答案可能会随着世界的新发展而改变,从而收集FRESHQA。如图是FRESHQA的例子。根据答案的性质,问题大致分为四大类:答案几乎永远不会改变;答案通常会在几年内发生变化;答案通常在一年或更短的时间内发生变化;前提事实上是不正确的,因此必须予以反驳。
如图可视化了两种评估模式下不同LLM在FRESHQA上的准确性