码科智能 | 微软开源视觉语言模型!能够执行超过10种不同的视觉任务,检测、分割、识别一切图片

本文来源公众号“码科智能”,仅用于学术分享,侵权删,干货满满。

原文链接:微软全新开源视觉语言模型!能够执行超过10种不同的视觉任务,检测、分割、识别一切图片

Florence-2:微软全新开源视觉模型!

当遇到如下场景,我们希望有一个AI模型能马上给出答案:

  • 上传一张超市货架的照片,让其精准找出牛奶的所在位置。

  • 上传一张公园里的照片,让模型给该图像起一个对应的标题。

  • 上传一张果园果树的照片,让模型解释一下该果树上有多少可摘的水果。

上述不同的视觉任务的理解需要大模型的支持,最近Microsoft 推出了多模态视觉语言模型(VLM)Florence-2,该模型能够执行超过10种不同的视觉任务,包括图像字幕生成、目标检测、图像区域关联和分割等。它不仅能描述图片的内容,还能识别图片中的物体,并指出这些物体的位置

图片

项目代码如下:

代码链接: https://huggingface.co/microsoft/Florence-2-large在线演示:https://huggingface.co/spaces/gokaygokay/Florence-2

1. 什么是Florence-2?

Florence-2 采用统一的、基于提示的表示方式来处理各种视觉任务。通过简单的文本提示,模型可以生成所需的文本形式结果,无论是图片描述、目标检测、视觉定位还是图像分割。这种方法简化了多任务处理的复杂性,提高了模型的通用性和适应性。Florence-2 系列包括 Florence-2-base 和 Florence-2-large,参数分别为 0.23 亿和 0.77 亿。尽管模型较小,但性能并不逊色。其可以运行在各种资源受限的移动端设备上。 

使用 Florence-2 提取带区域 OCR 的示例

Florence-2 支持哪些任务:

  • 物体检测:它可以高精度地识别和定位图像中的物体。

  • 图像区域分割:将图像分割成有意义的片段,以便于分析和解读。

  • 图像标题:能够为图像生成描述性标题,提供上下文和细节。

  • 视觉基础:将标题中的特定短语或单词与图像中的相应区域联系起来。

  • 零样本性能:无需专门训练即可执行任务。

使用 Florence-2 生成图像标题及检测

2. Florence-2的数据集情况?

该模型令人印象深刻的能力部分归功于其名为 FLD-5B 的海量训练数据集。FLD-5B 包含 1.26 亿张图片中的 54 亿个注释。这个全面的数据集是专门为 Florence-2 设计的,使其具备高精度、高效率处理各种视觉任务所需的能力。

FLD-5B 数据集包括不同类型的注释:文本描述、区域和文本对,以及文本、短语和区域的组合。该数据集通过数据收集和注释两个步骤创建而成。图片来源于流行的数据集,如 ImageNet-22k、Object 365、Open Images、Conceptual Captions 和 LAION。FLD-5B 数据集中的注释大多是合成的,这意味着它们是自动生成的,而不是人工标注的。  

3. 了解Florence-2的模型架构

Florence-2 的模型架构采用序列到序列(seq2seq)的学习方法,在序列到序列框架中,每个任务都被视为一个翻译问题:模型接收输入图像和特定任务提示,并生成相应的输出。该模型将图像和任务提示作为输入,以文本格式生成所需结果。它使用 DaViT 视觉编码器将图像转换为视觉标记嵌入。然后将这些嵌入与 BERT 生成的文本嵌入连接起来,并由基于转换器的多模态编码器解码器处理以生成响应。

模型的编码器负责将图像转换为序列表示,而解码器则将这些表示转换为输出文本。该模型以循序渐进的方式处理输入序列(如带有文本提示的图像)并生成输出序列(如描述或标签)。另外Florence-2的最大亮点是统一表示,可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等,整合到一个统一的框架中,帮助模型在不同的任务之间共享知识,提高学习效率。

检测、分类一切图片

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值