AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn
Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou
[National University of Singapore & Microsoft Research Asia]
AssistGPT:可规划、执行、检查和学习的通用多模态助理
要点:
-
动机:解决复杂的视觉任务在多模态场景下的挑战,包括难以准确分解查询、灵活的输入和中间结果。
-
方法:提出一个多模态AI助手系统AssistGPT,采用Plan、Execute、Inspect和Learn(PEIL)的交叉代码和语言推理方法,结合LLM和各种工具。
-
优势:AssistGPT能够处理复杂的视觉相关任务,具有灵活的推理方式和多模态能力,在A-OKVQA和NExT-QA基准测试中取得了最先进的结果。
介绍了一个名为AssistGPT的多模态AI助手系统,通过交叉代码和语言推理方法解决了复杂视觉任务的挑战,并在基准测试和实际应用中展示了其有效性。
https://arxiv.org/abs/2306.08640
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...