指代表达理解-REC

指代表达理解(Referring Expression Comprehension, REC)

在计算机视觉与自然语言处理交叉领域中,指代表达理解(Referring Expression Comprehension, REC)一直是研究的关键方向。这一任务要求模型能够基于自然语言描述,在图像中精准定位相应的目标对象。

然而,传统视觉模型在面对多实例指代任务时表现出明显局限:大多数仅针对单一实例优化,难以应对现实世界中"一条指令对应多个目标物体"的复杂场景。这种局限源于传统模型对语言理解的浅层处理,无法有效解析句子的语法结构和语义逻辑。


① GPT4o生成图片现在是生成图片速度太慢了,这是生成出来的 图已经不是原来的图了。如果用他自己的visual bounding能力的话,再结合代码能力,给出来的框也不太行。可能是框太多了吧。

我试试Dinox-Seek呢?

GPT4o也是乱来:理解满分,但是定位不行!

这是生成出来的 图已经不是原来的图了。

DINO-Xseed: 100满分,我给打79分,不错的还是用指代提示。可以研究一下,按次收费都在0.1rmb以上还是贵了。

当然也有不足!

Very Expensive!

MiniV :除了小也没啥用了,研究一下为什么可以这么小?

UFO:

思考? it's possible ,we can figure this out.

① RL训练VLM是否可以帮助?

②① 指代指令复杂了就推理不出来了(也是个好问题!)② gpt4这种vlm vllm更不行了 得拿成熟的visual encoder干事儿(maybe dinox?maybe dino-xseek?)③ 框架参考ufo

参考项目:

nnnth/UFO:“UFO:通过开放式语言界面实现细粒度视觉感知的统一方法”的官方实现 🛸

jingyaogong/minimind-v: 🚀 「大模型」1小时从0训练26M参数的视觉多模态VLM!🌏 Train a 26M-parameter VLM from scratch in just 1 hours!

DINO-X 进化!新一代面向多实例指代任务的视觉语言模型 DINO-XSeek 登场! - 知乎

DINO-X Platform | Unleashing the Power of Cutting-Edge Computer Vision Technology


DINO-XSeek 模型概览图 


UFO  模型概览图

 愿景:

具体方向是REC 或者 说 visual perception but with llm. 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值