指代表达理解(Referring Expression Comprehension, REC)
在计算机视觉与自然语言处理交叉领域中,指代表达理解(Referring Expression Comprehension, REC)一直是研究的关键方向。这一任务要求模型能够基于自然语言描述,在图像中精准定位相应的目标对象。
然而,传统视觉模型在面对多实例指代任务时表现出明显局限:大多数仅针对单一实例优化,难以应对现实世界中"一条指令对应多个目标物体"的复杂场景。这种局限源于传统模型对语言理解的浅层处理,无法有效解析句子的语法结构和语义逻辑。
① GPT4o生成图片现在是生成图片速度太慢了,这是生成出来的 图已经不是原来的图了。如果用他自己的visual bounding能力的话,再结合代码能力,给出来的框也不太行。可能是框太多了吧。
我试试Dinox-Seek呢?
GPT4o也是乱来:理解满分,但是定位不行!
这是生成出来的 图已经不是原来的图了。
DINO-Xseed: 100满分,我给打79分,不错的还是用指代提示。可以研究一下,按次收费都在0.1rmb以上还是贵了。
当然也有不足!
Very Expensive!
MiniV :除了小也没啥用了,研究一下为什么可以这么小?
UFO:
思考? it's possible ,we can figure this out.
① RL训练VLM是否可以帮助?
②① 指代指令复杂了就推理不出来了(也是个好问题!)② gpt4这种vlm vllm更不行了 得拿成熟的visual encoder干事儿(maybe dinox?maybe dino-xseek?)③ 框架参考ufo
参考项目:
nnnth/UFO:“UFO:通过开放式语言界面实现细粒度视觉感知的统一方法”的官方实现 🛸
DINO-X 进化!新一代面向多实例指代任务的视觉语言模型 DINO-XSeek 登场! - 知乎
DINO-X Platform | Unleashing the Power of Cutting-Edge Computer Vision Technology
DINO-XSeek 模型概览图

UFO 模型概览图
愿景:
具体方向是REC 或者 说 visual perception but with llm.