admin管理员组文章数量:1130349
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning
摘要
具有抽象推理能力的强人工智能(Strong AI)或通用人工智能(AGI)是下一代人工智能的目标。大型语言模型 (LLM) 的最新进展以及新兴的多模态大型语言模型 (MLLM) 领域在各种多模态任务和应用程序中展示了令人印象深刻的功能。特别是,各种 MLLM 都具有不同的模型架构、训练数据和训练阶段,已在广泛的 MLLM 基准上进行了评估。这些研究在不同程度上揭示了 MLLM 当前能力的不同方面。然而,MLLM 的推理能力尚未得到系统研究。在本次调查中,我们全面回顾了现有的多模态推理评估协议,对 MLLM 的前沿进行了分类和说明,介绍了 MLLM 在推理密集型任务中应用的最新趋势,最后讨论了当前的实践和未来的方向。我们相信我们的调查为多模态推理这一重要主题奠定了坚实的基础并阐明了清楚了
导言
最近发展
MLLM 已在各种多模态推理任务中证明了有效性。著名的例子包括视觉问答(VQA),多模态对话等
大量研究重点关注特别是提高 MLLM 的推理能力,例如多模态指令调整 和提示多模态推理
MLLM 的强大功能也引起了人们对将它们体现为现实环境中的代理的研究兴趣 , 或让MLLM能够使用外部工具
不足
LM在一些推理领域不行,例如数学问题
MLLM和LM都有幻觉问题
MLLM的推理任务定义和分类
定义
Reasoning is one of the fundamental intelligent behaviors of human beings, which requires understanding and analyzing given conditions and background knowledge to derive a new conclusion logically and rationally
推理要遵守的:推理规则,领域知识
分类
分类方法一
-
正式推理:其中只要前提为真,正式推理的结论就保证为真
-
非正式推理则不能保证结论的真实性,尤其是当可用信息是不完整或不明确时。通常,非正式推理是用自然语言进行的,
分类方法二
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning
摘要
具有抽象推理能力的强人工智能(Strong AI)或通用人工智能(AGI)是下一代人工智能的目标。大型语言模型 (LLM) 的最新进展以及新兴的多模态大型语言模型 (MLLM) 领域在各种多模态任务和应用程序中展示了令人印象深刻的功能。特别是,各种 MLLM 都具有不同的模型架构、训练数据和训练阶段,已在广泛的 MLLM 基准上进行了评估。这些研究在不同程度上揭示了 MLLM 当前能力的不同方面。然而,MLLM 的推理能力尚未得到系统研究。在本次调查中,我们全面回顾了现有的多模态推理评估协议,对 MLLM 的前沿进行了分类和说明,介绍了 MLLM 在推理密集型任务中应用的最新趋势,最后讨论了当前的实践和未来的方向。我们相信我们的调查为多模态推理这一重要主题奠定了坚实的基础并阐明了清楚了
导言
最近发展
MLLM 已在各种多模态推理任务中证明了有效性。著名的例子包括视觉问答(VQA),多模态对话等
大量研究重点关注特别是提高 MLLM 的推理能力,例如多模态指令调整 和提示多模态推理
MLLM 的强大功能也引起了人们对将它们体现为现实环境中的代理的研究兴趣 , 或让MLLM能够使用外部工具
不足
LM在一些推理领域不行,例如数学问题
MLLM和LM都有幻觉问题
MLLM的推理任务定义和分类
定义
Reasoning is one of the fundamental intelligent behaviors of human beings, which requires understanding and analyzing given conditions and background knowledge to derive a new conclusion logically and rationally
推理要遵守的:推理规则,领域知识
分类
分类方法一
-
正式推理:其中只要前提为真,正式推理的结论就保证为真
-
非正式推理则不能保证结论的真实性,尤其是当可用信息是不完整或不明确时。通常,非正式推理是用自然语言进行的,
分类方法二
本文标签: MultimodalLARGEAbilitiesEXPLORINGReasoning
版权声明:本文标题:Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Surve 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1758732778a2783468.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论