MiniGPT-4：开源的可看图聊天的识图AI模型

引言

ChatGPT-4的推出，展示了许多令人印象深刻的功能。例如ChatGPT-4可以产生非常详细和准确的图像描述、解释不寻常的视觉现象，甚至基于手写文本指令构建网站。尽管ChatGPT-4表现出了非凡的能力，但其卓越能力背后的方法仍然是个谜。

但现在不一样了，来自阿卜杜拉国王科技大学的人员推出了类似产品 ——MiniGPT-4，也具有识别图片功能。

MiniGPT-4介绍

来自King Abdullah University of Science and Technology（阿卜杜拉国王科技大学）的Deyao Zhu* , Jun Chen*, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny 提出了MiniGPT-4，它只使用一个投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐。

他们的研究结果表明，MiniGPT-4具有许多与GPT-4类似的功能，如通过手写草稿生成详细的图像描述和创建网站。此外，他们还观察到MiniGPT-4中的其他新兴功能，包括根据给定的图像创作故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片烹饪等。

在实验中，他们发现，只有对原始图像-文本对进行预训练，才能产生缺乏连贯性的非自然语言输出，包括重复和碎片句子。为了解决这个问题，他们在第二阶段策划了一个高质量、对齐良好的数据集，以使用对话模板微调我们的模型。事实证明，这一步骤对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是，他们的模型计算效率很高，因为他们只使用大约500万对对齐的图像-文本对来训练投影层。

MiniGPT-4官方网站：Minigpt-4

MiniGPT-4 GitHub地址：GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models

MiniGPT-4论文地址：MiniGPT-4/MiniGPT_4.pdf at main · Vision-CAIR/MiniGPT-4 · GitHub

MiniGPT-4中文教程：MiniGPT-4中文教程