像GPT-4V这样的多模式大型语言模型(MLLM)非常擅长分析和描述图像,但有时它们会产生幻觉并出错。一种名为啄木鸟的新方法可以解决这个问题。
如果你要求MLLM描述一张照片,它通常可以挑出对象并准确地描述场景。但就像文本提示的答案一样,模型有时会根据经常出现在一起的项目或概念做出假设。
因此,MLLM可以描述一张店面场景的照片,并说现场有人,而实际上没有人。
修复基于文本的LLMS中的幻觉正在进行中,但当模型连接到互联网时,会变得容易得多。LLM可以生成对提示的文本响应,基于相关的互联网数据检查其准确性,并在必要时进行自我更正。
腾讯优图实验室和中国科学技术大学的科学家采用了这种方法,并将其转化为一种名为啄木鸟的视觉解决方案。
简而言之,啄木鸟从图像中构建了一个知识体系,然后LLM可以使用它作为参考来纠正MLLM生成的初始描述。
以下是它如何工作的简要描述:
- 像GPT-3.5Turbo这样的LLM分析由MLLM生成的描述,并提取关键概念,如对象、数量和属性。例如,在句子“该男子戴着一顶黑帽子。”中,宾语“男子”和“帽子”被提取出来。
- 然后,一个法学硕士被提示生成与这些概念有关的问题,如“图像中有一个男人吗?”或者“那个男人穿的是什么?”
- 这些问题作为提示输入到视觉问题处理(VQA)模型。接地DINO执行目标检测和计数,而BLIP—2—FlanT5 VQA在分析图像后回答属性相关的问题。
- 法学硕士将问题的答案结合到图像的视觉知识库中。
- 一个LLM使用这个参考知识体来纠正原始MLLM描述中的任何幻觉,并添加它遗漏的细节。
错误的描述从MLLM随着更正从啄木鸟。来源:arXiv
研究人员将他们的方法命名为啄木鸟,以参考鸟类如何从树上挑出虫子。
测试结果表明,啄木鸟对MiniGPT4和mPLUG-Owl模型的准确率分别提高了30.66%和24.33%。
这种方法所需模型的一般性质意味着啄木鸟方法可以很容易地整合到各种工作量管理措施中。
如果OpenAI将啄木鸟集成到ChatGPT中,那么我们可以看到已经令人印象深刻的视觉性能有了显著的改善。MLLM幻觉的减少还可以改善使用视觉描述作为输入的系统的自动决策。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...