文章主要内容总结
本文针对大型语言模型(LLMs)在分子结构解析任务中存在的化学知识不足、推理评估能力弱等问题,提出了一种知识增强的推理框架K-MSE(Knowledge-enhanced reasoning framework for Molecular Structure Elucidation)。该框架以蒙特卡洛树搜索(MCTS)为基础,可作为插件与任意LLM结合,显著提升分子结构解析性能。
具体而言,研究的核心问题是LLMs在处理核磁共振(NMR)、红外(IR)等光谱数据推断分子结构时,存在两大局限:一是对化学分子结构空间的覆盖不全面(如难以准确识别噻吩等特殊亚结构);二是无法准确评估和修正自身推理过程,影响树搜索等复杂推理的效率。
为解决这些问题,K-MSE从三方面入手:
- 构建分子亚结构知识库:整合常见分子亚结构(如环结构、链结构)及其文本描述,补充LLMs的化学知识覆盖;
- 设计专门的分子-光谱评分器