MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models-369IT编程

admin管理员组
文章数量:1130349

本文也是LLM系列相关文章，针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。

MME:一个多模态大型语言模型的综合评估基准

摘要
1 引言
2 MME评估套件
3 实验
4 分析
5 结论

摘要

多模态大语言模型（MLLM）依靠强大的LLM来执行多模态任务，在最近的研究中显示出惊人的涌现能力，例如基于图像写诗。然而，这些案例研究很难完全反映MLLM的表现，缺乏全面的评估。在本文中，我们填补了这一空白，提出了第一个MLLM评估基准MME。它测量了总共14个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露，指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较MLLM，而不是在提示工程中苦苦挣扎。此外，有了这样的指示，我们也可以很容易地进行定量统计。在我们的MME上，共对12种先进的MLLM进行了全面评估，这不仅表明现有的MLLM仍有很大的改进空间，而且揭示了后续模型优化的潜在方向。

1 引言

2 MME评估套件

3 实验

4 分析

我们总结了四个在很大程度上影响MLLMs性能的常见问题。第一个问题是没有遵循指令。尽管我们采用了非常简洁的指令设计，但也有MLLM可以自由回答，而不是遵循指令。例如，如图4的第一行所示，指令声称“请回答是或否”，但MLLM只做了一个声明性表达式。如果在生成的语言的开头没有出现“是”或“否”，则判断模型做出了错误的回答。我们认

本文也是LLM系列相关文章，针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。

MME:一个多模态大型语言模型的综合评估基准

摘要
1 引言
2 MME评估套件
3 实验
4 分析
5 结论

摘要

1 引言

2 MME评估套件

3 实验

4 分析

本文标签： evaluation Benchmark MME Comprehensive language

版权声明：本文标题：MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1758740935a2783579.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

369IT编程

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

MME:一个多模态大型语言模型的综合评估基准

摘要

1 引言

2 MME评估套件

3 实验

4 分析

MME:一个多模态大型语言模型的综合评估基准

摘要

1 引言

2 MME评估套件

3 实验

4 分析

更多相关文章

【GNN综述2】 2019 A Comprehensive Survey on Graph Neural Networks

暑期文献阅读一：A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models

YoLo进化史《A COMPREHENSIVE REVIEW OF YOLO: FROM YOLOV1 TOYOLOV8 AND BEYOND》

a comprehensive guide for linear ridge and lasso regression

论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

Datasets for Large Language Models: A Comprehensive Survey

【阅读笔记】PPFL全面综述文章: A Comprehensive Survey of Privacy-preserving Federated Learning

ChatGPT 拓展资料：论文阅读A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to Chat

Unlocking the Potential of Use Case Diagrams: A Comprehensive Guide

[综述笔记]Comprehensive review of Transformer-based models in neuroscience, neurology, and psychiatry

IPQ9574 vs IPQ5424: A Comprehensive Technical Comparison of Wi-Fi 7 SoCs

A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY

Linux MongoDB: A Comprehensive Guide

【论文笔记】 图神经网络综述 A Comprehensive Survey on Graph Neural Networks

Comprehensive Privacy Analysis of Deep Learning

RAG综述：《A Comprehensive Survey of Retrieval-Augmented Generation (RAG)》

探索 Comprehensive Rust：全方位学习 Rust 语言的资源库

【论文翻译】A Comprehensive Survey on Safe Reinforcement Learning

JavaScript Navigator: A Comprehensive Guide to Mastering the Browser‘s Navigation Object

发表评论

推荐文章

网络资源下载方式：httphttps、ftpsftp、BT种子、磁力下载、ed2k下载等的区别

针对win10底部任务栏无响应而桌面正常响应的解决方法

华为云会议实测：经常开远程视频会议，选它就对了

[项目介绍]我的智能语音管家——Jarivs

计算机专业大学生该买什么配置的电脑,大学生适合买什么配置的电脑？

热门文章

u盘能不能给联想服务器做系统盘,u盘能当系统盘吗？怎么把U盘做成系统盘

最新破解QQ空间收费物品的真实地址(完全可免费使用)

腾讯视频怎么录屏，腾讯视频怎么截长视频

全网最详细！PyCharm专业版下载安装教程！

最近腾讯手机管家a.gray.Bulimia.a病毒提示决解方案

ChatGPT一键私有化部署，定制你的专属客户端（带功能增强）

解决C盘空间不足的高效方法：智能化工具助力轻松清理

docker安装windows镜像，实战案例

超级实用(附技巧)——用word与谷歌翻译将英文PDF文档翻译成中文，免费无限制

Windows 使用 pocketsphinx 做中文语音识别

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

【论文笔记】图神经网络综述 A Comprehensive Survey on Graph Neural Networks

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程