MiniGPT-4:开源的可看图聊天的识图AI模型

引言

ChatGPT-4的推出,展示了许多令人印象深刻的功能。例如ChatGPT-4可以产生非常详细和准确的图像描述、解释不寻常的视觉现象,甚至基于手写文本指令构建网站。尽管ChatGPT-4表现出了非凡的能力,但其卓越能力背后的方法仍然是个谜。

但现在不一样了,来自阿卜杜拉国王科技大学的人员推出了类似产品 ——MiniGPT-4,也具有识别图片功能。

MiniGPT-4介绍

来自King Abdullah University of Science and Technology(阿卜杜拉国王科技大学)的Deyao Zhu* , Jun Chen*, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny 提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐。

他们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如通过手写草稿生成详细的图像描述和创建网站。此外,他们还观察到MiniGPT-4中的其他新兴功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。

在实验中,他们发现,只有对原始图像-文本对进行预训练,才能产生缺乏连贯性的非自然语言输出,包括重复和碎片句子。为了解决这个问题,他们在第二阶段策划了一个高质量、对齐良好的数据集,以使用对话模板微调我们的模型。事实证明,这一步骤对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是,他们的模型计算效率很高,因为他们只使用大约500万对对齐的图像-文本对来训练投影层。

MiniGPT-4官方网站:Minigpt-4

MiniGPT-4 GitHub地址:GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models

MiniGPT-4论文地址:MiniGPT-4/MiniGPT_4.pdf at main · Vision-CAIR/MiniGPT-4 · GitHub

MiniGPT-4中文教程:MiniGPT-4中文教程

MiniGPT-4模型

MiniGPT-4由一个带有预训练的ViT和Q-Former的视觉编码器、一个单一的线性投影层和一个高级的Vicuna大型语言模型组成。MiniGPT-4只需要训练线性层,使视觉特征与Vicuna对齐。

这个标志设计简单而简约,画了一只火烈鸟单腿站在水中的粉红色线条。该设

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值