文章主要内容总结
- 研究背景与目标:化学表格包含符号表达、结构化变量和分子图形等多模态信息,现有基准未充分关注此类复杂性,限制了多模态大语言模型(MLLMs)在化学科学理解中的应用。为此,研究团队构建了ChemTable基准,旨在评估MLLMs在化学表格识别与理解任务上的表现。
- ChemTable数据集特点
- 数据规模:从化学文献实验部分筛选超1300个真实表格,覆盖反应条件优化、底物筛选等6种类型。
- 注释细节:包含单元格多边形、逻辑布局、领域标签(试剂、产率等)及分子图形注释。
- 任务设计:
- 表格识别:结构解析与内容提取,如值检索、位置检索、分子识别(SMILES字符串提取)。
- 表格理解:超9000个问答实例,分为描述性问题(事实提取)和推理问题(对比、归因等)。
- 实验结果与发现
- 模型表现:闭