本文是LLM系列文章,针对《Hypothesis Generation with Large Language Models》的翻译。
摘要
有效地提出新的假设有助于科学进步。到目前为止,研究人员一直是通过艰苦的数据分析和思考(也称为尤里卡时刻)生成假设的主要动力。在本文中,我们研究了大型语言模型(LLMs)生成假设的潜力。我们专注于基于数据(即标记示例)的假设生成。为了使LLM能够处理任意长的上下文,我们从少量示例中生成初始假设,然后迭代更新它们以提高假设的质量。受多臂老虎机的启发,我们设计了一个奖励函数,以告知更新过程中的开发探索权衡。我们的算法能够生成假设,在分类任务中比很少的样本提示具有更好的预测性能,在合成数据集上将准确率提高了31.7%,分别提高了13.9%、3.3%和24.9%在三个真实世界的数据集上。在两个具有挑战性的真实世界数据集上,我们的表现也优于监督学习12.8%和11.2%。此外,我们发现,生成的假设不仅证实了人类验证的理论,还为任务揭示了新的见解。