Empowering LLMs with Logical Reasoning: A Comprehensive Survey
大语言模型(LLMs)虽然在很多自然语言任务中取得了显著成就,但最新研究表明其逻辑推理能力仍存在显著缺陷。本文将大模型逻辑推理困境主要归纳为两个方面:
逻辑问答:LLMs 在给定前提和约束条件下进行演绎、归纳或溯因等复杂推理时,往往难以生成正确答案。例如,前提为 “金属导电;绝缘体不导电;如果某物是由铁制成的,那么它是金属;钉子是由铁制成的”,问题为 “下列断言是真、假还是无法判断:钉子不能导电”。为了正确回答这个问题,大语言模型需要自我总结出逻辑推理链 “钉子→由铁制成→金属→导电”,从而得出该断言实际为 “假” 的结论。
逻辑一致性:LLMs 在不同问题间容易产生自相矛盾的回答。例如,Macaw 问答模型对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 均回答 “是”,但对 “喜鹊有翅膀吗?” 给出否定答案。
为推进该领域研究,我们系统梳理了最前沿的技术方法并建立了对应的分类体系。具体而言,对于逻辑问答,现有方法可根据其技术路线分为基于外部求解器、提示工程、预训练和微调等类别。对于逻辑一致性,我们探讨了常见的逻辑一致性的概念,包括否定一致性、蕴涵一致性、传递一致性、事实一致性及其组合形式,并针对每种逻辑一致性归纳整理了其对应的技术手段。
此外,我们总结了常用基准数据集和评估指标,并探讨了若干具有前景的研究方向,例如扩展至模态逻辑以处理不确定性,以及