一、概述
1、是什么
Mini-Monkey 论文全称《Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models》,是一个轻量级MLLM(多模态的视觉-文本模型),基于InternViT、MLP和InternLLM,其实就是全套的Intern VL2。用途论文提到:不仅在各种通用多模态理解任务上展示了领先的性能,而且在文档理解能力上也显示出一致的改进,所以关于多图问对话、视频理解对话 、json格式、代码编写和debug、函数调用论文暂时未提。
2、亮点
论文宣称:
*在2B参数MLLM中取得了最先进的性能。它不仅在各种通用多模态理解任务上展示了领先的性能,而且在文档理解能力上也显示出一致的改进。在OCRBench上,Mini-Monkey达到了802分,超过了8B参数的最先进模型InternVL2-8B。
*此外,我们的模型和训练策略非常高效,只需要8个RTX 3090即可训练。
*创新点:图像的处理方式——多尺度自适应裁剪策略(MSAC)+一种尺度压缩机制(SCM)。Mini-Monkey能够自适应地生成多尺度表示,允许它从不同尺度中选择未被分割的物体,