InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

828 篇文章

已下架不支持订阅

本文介绍了InternLM-Math,一个开源的数学推理大型语言模型,能够进行验证推理、证明和增强。通过预训练和监督微调,模型在多个数学基准测试中表现出色,无需微调即可在MiniF2F上达到30.3的得分。此外,该模型结合了代码解释器,展现了使用LEAN解决和证明数学问题的潜力,为构建可验证的数学推理能力迈出了第一步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning》的翻译。

InternetLM-Math:面向可验证推理的开放式数学大型语言模型

摘要

大型语言模型的数学能力可以代表其抽象推理能力。在本文中,我们介绍并开源了我们的数学推理LLMs InternLM math,它是从InternLM2继续预训练的。我们将思维链推理、奖励建模、形式推理、数据增强和代码解释器统一为统一的seq2seq格式,并监督我们的模型成为一个通用的数学推理器、验证器、证明器和增强器。这些能力可以用于开发下一个数学LLM或自迭代。InternLM Math在各种非正式和正式的基准测试中,包括GSM8K、Math、匈牙利数学考试、MathBenchZH和MiniF2F,在上下文学习、监督微调和代码辅助推理的背景下,获得开源的最先进的表现。我们的预训练模型在MiniF2F测试集上达到30.3,无需微调。我们进一步探索了如何使用LEAN来解决数学问题,并研究了它在多任务学习环境下的性能,这表明了使用LEAN作为统一的数学解决和证明平台的可能性。我们的模型、代码和数据发布于https://github.com/InternLM/InternLM-Math.

1 引言

2 相关工作

<

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值