admin管理员组文章数量:1130349
本文也是LLM系列相关文章,针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。
MME:一个多模态大型语言模型的综合评估基准
- 摘要
- 1 引言
- 2 MME评估套件
- 3 实验
- 4 分析
- 5 结论
摘要
多模态大语言模型(MLLM)依靠强大的LLM来执行多模态任务,在最近的研究中显示出惊人的涌现能力,例如基于图像写诗。然而,这些案例研究很难完全反映MLLM的表现,缺乏全面的评估。在本文中,我们填补了这一空白,提出了第一个MLLM评估基准MME。它测量了总共14个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露,指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较MLLM,而不是在提示工程中苦苦挣扎。此外,有了这样的指示,我们也可以很容易地进行定量统计。在我们的MME上,共对12种先进的MLLM进行了全面评估,这不仅表明现有的MLLM仍有很大的改进空间,而且揭示了后续模型优化的潜在方向。
1 引言
2 MME评估套件
3 实验
4 分析
我们总结了四个在很大程度上影响MLLMs性能的常见问题。第一个问题是没有遵循指令。尽管我们采用了非常简洁的指令设计,但也有MLLM可以自由回答,而不是遵循指令。例如,如图4的第一行所示,指令声称“请回答是或否”,但MLLM只做了一个声明性表达式。如果在生成的语言的开头没有出现“是”或“否”,则判断模型做出了错误的回答。我们认
本文也是LLM系列相关文章,针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。
MME:一个多模态大型语言模型的综合评估基准
- 摘要
- 1 引言
- 2 MME评估套件
- 3 实验
- 4 分析
- 5 结论
摘要
多模态大语言模型(MLLM)依靠强大的LLM来执行多模态任务,在最近的研究中显示出惊人的涌现能力,例如基于图像写诗。然而,这些案例研究很难完全反映MLLM的表现,缺乏全面的评估。在本文中,我们填补了这一空白,提出了第一个MLLM评估基准MME。它测量了总共14个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露,指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较MLLM,而不是在提示工程中苦苦挣扎。此外,有了这样的指示,我们也可以很容易地进行定量统计。在我们的MME上,共对12种先进的MLLM进行了全面评估,这不仅表明现有的MLLM仍有很大的改进空间,而且揭示了后续模型优化的潜在方向。
1 引言
2 MME评估套件
3 实验
4 分析
我们总结了四个在很大程度上影响MLLMs性能的常见问题。第一个问题是没有遵循指令。尽管我们采用了非常简洁的指令设计,但也有MLLM可以自由回答,而不是遵循指令。例如,如图4的第一行所示,指令声称“请回答是或否”,但MLLM只做了一个声明性表达式。如果在生成的语言的开头没有出现“是”或“否”,则判断模型做出了错误的回答。我们认
本文标签: evaluationBenchmarkMMEComprehensivelanguage
版权声明:本文标题:MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1758740935a2783579.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论