加州大学圣地亚哥分校和纽约大学的研究人员开发了V*,这是一种由LLM引导的搜索算法,在上下文理解和精确定位图像中特定视觉元素方面比GPT-4V要好得多。
像OpenAI的GPT—4V这样的多模态大型语言模型(MLLM)去年让我们大吃一惊,能够回答有关图像的问题。尽管GPT—4V令人印象深刻,但当图像非常复杂时,它有时会遇到困难,并且经常会错过小细节。
V * 算法使用Visual Question Energing(VQA)LLM来引导它识别图像的哪个区域来回答视觉查询。研究人员将这种组合称为Show、sEArch和tel(SEAL)。
如果有人给了你一张高分辨率的图像,并问你一个关于它的问题,你的逻辑会引导你放大一个区域,你最有可能找到问题的项目。SEAL使用V * 以类似的方式分析图像。
视觉搜索模型可以简单地将图像分成块,放大到每个块,然后对其进行处理以找到有问题的对象,但这在计算上效率非常低。
当提示有关图像的文本查询时,V * 首先尝试直接定位图像目标。如果它不能做到这一点,它要求MLLM使用常识方法来确定目标最有可能在图像的哪个区域。
然后,它将搜索集中在该区域,而不是试图“放大”搜索整个图像。
当被提示搜索吉他时,LLM会将舞台识别为逻辑区域,以集中视觉分析来寻找它。
当GPT-4V被提示回答关于需要对高分辨率图像进行广泛视觉处理的图像的问题时,它会遇到困难。使用V*的Seal性能要好得多。
SEAL正确地回答了一个关于图像的问题,而GPT—4V却错误地回答了这个问题。来源:GitHub
当提示“,我们可以从那台自动售货机买到什么饮料?”Seal的回答是“可口可乐”,而GPT-4V错误地猜到了“百事可乐”。
研究人员使用了Meta的Segment Anything(SAM)数据集中的191张高分辨率图像,并创建了一个基准,以查看SEAL与其他模型相比的性能。V * Bench基准测试了两个任务:属性识别和空间关系推理。
下图显示了与开源模型、商业模型(如GPT—4V和SEAL)相比的人类性能。V * 对SEAL性能的提升尤其令人印象深刻,因为它使用的底层MLLM是LLaVa—7b,比GPT—4V小得多。
这种直观的图像分析方法似乎与GitHub上的论文摘要中的一些令人印象深刻的例子非常有效。
看看其他MLM,如OpenAI或谷歌的MLM是否会采用类似的方法,这将是有趣的。
当被问及上图中的自动售货机出售的是什么饮料时,Google的Bard回答说:“前景中没有自动售货机。也许双子座超级会做得更好
目前,在视觉提问方面,海豹突击队及其新颖的V*算法似乎领先于一些最大的多通道模型。