Zoom：LLM指令遵循评估基准LogicIFEval

原创于 2025-08-19 08:00:00 发布 · 361 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #语言模型 #论文笔记

大模型-模型评估同时被 2 个专栏收录

151 篇文章

订阅专栏

大模型-指令建设

58 篇文章

订阅专栏

在这里插入图片描述

📖标题：Complex Logical Instruction Generation
🌐来源：arXiv, 2508.09125

🌟摘要

指令跟随已经催化了大型语言模型 (LLM) 的最新时代，是基础技能，支持更高级的功能，例如推理和代理行为。随着任务的增长更具挑战性，嵌入在自然语言指令中的逻辑结构变得越来越复杂。然而，llm在这种逻辑丰富的指令上的表现如何仍有待探索。我们提出了 LogicIFGen 和 LogicIFEval。 LogicIFGen 是一个可扩展的、自动化的框架，用于从代码函数生成可验证指令，可以自然地表达丰富的逻辑，例如条件、嵌套、递归和函数调用。我们进一步整理了一组复杂的代码函数，并使用 LogicIFGen 来构建 LogicIFEval，这是一个包含 426 个可验证逻辑丰富指令的基准。我们的实验表明，当前最先进的 LLM 仍然难以正确遵循 LogicIFEval 中的指令。大多数 LLM 只能遵循不到 60% 的指令，揭示了指令跟随能力的显着缺陷。

🛎️文章简介

🔸研究问题：如何从代码函数自动生成可验证的逻辑丰富的自然语言指令，以提高大语言模型（LLM）在复杂指令执行中的表现。
🔸主要贡献：论文提出了LogicIFGen框架及其生成的LogicIFEval基准，旨在评估模型在遵循复杂逻辑指令时的能力。

📝重点思路

🔸LogicIFGen框架自动从代码函数中生成详细的自然语言指令，描述函数的逻辑和行为。
🔸引入状态跟踪器来监测中间逻辑流，确保模型不仅生成正确的输出，还能维护正确的内部状态。
🔸通过多轮困难度演变和多轮验证及修正模块动态调整指令的复杂性，并验证其正确性。
🔸构建了一个包含426个任务的指南评估基准LogicIFEval，测试模型在对复杂逻辑指令的理解和执行能力。

🔎分析总结

🔸实验表明，绝大多模型在LogicIFEval基准上的表现不佳，尤其是在面对复杂逻辑时，遵循指令的能力显著下降。
🔸结果显示，输出准确性普遍高于状态跟踪准确性，表明模型在逻辑执行时存在问题，例如控制流误执行和状态跟踪错误。
🔸引入显式思维的模型在指令遵循任务中的表现明显优于不引入思维的模型，显示了深思熟虑对任务解决的重要性。