复合图标题拆分-CSDN博客

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/143902632

一、背景

在学术论文、研究报告、教科书等领域，一张复合图通常由多个子图组成，每个子图都有其特定的内容和含义。复合图的标题（caption）通常包含各个子图的描述信息，因此拆分复合图标题有助于更好地理解和分析每个子图的内容。

二、方案

由于图文对数据集的数据量较大，为了提升拆分效率，技术方案分为两部分：

先用大语言模型标注图文对数据集的标题是否需要拆分，基于标注数据训练二分类模型，利用二分类模型对所有标题进行分类；过滤得到需要拆分的标题，将其视作复合图标题。
编写prompt，基于大语言模型对复合图标题进行拆分。

2.1 文本分类

利用大语言模型Qwen2.5 标注标题是否为复合图标题，一共标注30万条样本。从标注结果中抽样100条，人工评估大模型标准的准确率为98%。标注标题的prompt 如下：

Check if the given composite figure caption contains explicit sub-figure labels. If there are no explicit sub-figure labels, return a single character '1'.

If there are explicit sub-figure labels, then according to these labels, determine if each sub-figure caption starts with a label in the forma