增强LLMs逻辑推理:挑战与突破

1861 篇文章 ¥199.90 ¥299.90
1449 篇文章 ¥199.90 ¥299.90
1260 篇文章 ¥199.90 ¥299.90

Empowering LLMs with Logical Reasoning: A Comprehensive Survey

大语言模型(LLMs)虽然在很多自然语言任务中取得了显著成就,但最新研究表明其逻辑推理能力仍存在显著缺陷。本文将大模型逻辑推理困境主要归纳为两个方面:

逻辑问答:LLMs 在给定前提和约束条件下进行演绎、归纳或溯因等复杂推理时,往往难以生成正确答案。例如,前提为 “金属导电;绝缘体不导电;如果某物是由铁制成的,那么它是金属;钉子是由铁制成的”,问题为 “下列断言是真、假还是无法判断:钉子不能导电”。为了正确回答这个问题,大语言模型需要自我总结出逻辑推理链 “钉子→由铁制成→金属→导电”,从而得出该断言实际为 “假” 的结论。

逻辑一致性:LLMs 在不同问题间容易产生自相矛盾的回答。例如,Macaw 问答模型对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 均回答 “是”,但对 “喜鹊有翅膀吗?” 给出否定答案。

为推进该领域研究,我们系统梳理了最前沿的技术方法并建立了对应的分类体系。具体而言,对于逻辑问答,现有方法可根据其技术路线分为基于外部求解器、提示工程、预训练和微调等类别。对于逻辑一致性,我们探讨了常见的逻辑一致性的概念,包括否定一致性、蕴涵一致性、传递一致性、事实一致性及其组合形式,并针对每种逻辑一致性归纳整理了其对应的技术手段。

此外,我们总结了常用基准数据集和评估指标,并探讨了若干具有前景的研究方向,例如扩展至模态逻辑以处理不确定性,以及

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZhangJiQun&MXP

等到80岁回首依旧年轻

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值