本文是LLM系列文章,针对《InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning》的翻译。
摘要
大型语言模型的数学能力可以代表其抽象推理能力。在本文中,我们介绍并开源了我们的数学推理LLMs InternLM math,它是从InternLM2继续预训练的。我们将思维链推理、奖励建模、形式推理、数据增强和代码解释器统一为统一的seq2seq格式,并监督我们的模型成为一个通用的数学推理器、验证器、证明器和增强器。这些能力可以用于开发下一个数学LLM或自迭代。InternLM Math在各种非正式和正式的基准测试中,包括GSM8K、Math、匈牙利数学考试、MathBenchZH和MiniF2F,在上下文学习、监督微调和代码辅助推理的背景下,获得开源的最先进的表现。我们的预训练模型在MiniF2F测试集上达到30.3,无需微调。我们进一步探索了如何使用LEAN来解决数学问题,并研究了它在多任务学习环境下的性能,这表明了使用LEAN作为统一的数学解决和证明平台的可能性。我们的模型、代码和数据发布于https://github.com/InternLM/InternLM-Math.