InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

UnknownBody

于 2024-03-20 15:05:21 发布

阅读量157

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Causal and Reasoning 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136875804

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

Causal and Reasoning

101 篇文章

订阅专栏

本文介绍了InternLM-Math，一个开源的数学推理大型语言模型，能够进行验证推理、证明和增强。通过预训练和监督微调，模型在多个数学基准测试中表现出色，无需微调即可在MiniF2F上达到30.3的得分。此外，该模型结合了代码解释器，展现了使用LEAN解决和证明数学问题的潜力，为构建可验证的数学推理能力迈出了第一步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning》的翻译。

摘要

大型语言模型的数学能力可以代表其抽象推理能力。在本文中，我们介绍并开源了我们的数学推理LLMs InternLM math，它是从InternLM2继续预训练的。我们将思维链推理、奖励建模、形式推理、数据增强和代码解释器统一为统一的seq2seq格式，并监督我们的模型成为一个通用的数学推理器、验证器、证明器和增强器。这些能力可以用于开发下一个数学LLM或自迭代。InternLM Math在各种非正式和正式的基准测试中，包括GSM8K、Math、匈牙利数学考试、MathBenchZH和MiniF2F，在上下文学习、监督微调和代码辅助推理的背景下，获得开源的最先进的表现。我们的预训练模型在MiniF2F测试集上达到30.3，无需微调。我们进一步探索了如何使用LEAN来解决数学问题，并研究了它在多任务学习环境下的性能，这表明了使用LEAN作为统一的数学解决和证明平台的可能性。我们的模型、代码和数据发布于https://github.com/InternLM/InternLM-Math.