admin管理员组

文章数量:1034127

让 LLM 既能“看”又能“推理”!

DeepSeek-R1 会推理,GPT-4o 会看。能否让

1 LLM既能看又能推理?

DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入

1.1 DeepSeek模型发展

自2024.12,DeepSeek已发布:

  • DeepSeek-V3(2024.12):视觉语言模型(VLM),支持图像和文本输入,类似 GPT-4o
  • DeepSeek-R1(2025.1):大规模推理模型(LRM),仅支持文本输入,但具备更强的推理能力,类似 OpenAI-o1

我们已领略视觉语言模型(VLM)大规模推理模型(LRM),下一个是谁?

我们需要视觉推理模型(VRM)——既能看又能推理。本文探讨如何实现它。

2 现有模型的问题

当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能看懂图像,又能深度推理的模型?

物理问题示例

我是一个学生,向 LLM 提问物理问题,并附带一张图像。

就需要一个模型能同时:

  1. 理解图像内容
  2. 进行深度推理(如分析问题、评估答案、考虑多种可能性)

就需要

让 LLM 既能“看”又能“推理”!

DeepSeek-R1 会推理,GPT-4o 会看。能否让

1 LLM既能看又能推理?

DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入

1.1 DeepSeek模型发展

自2024.12,DeepSeek已发布:

  • DeepSeek-V3(2024.12):视觉语言模型(VLM),支持图像和文本输入,类似 GPT-4o
  • DeepSeek-R1(2025.1):大规模推理模型(LRM),仅支持文本输入,但具备更强的推理能力,类似 OpenAI-o1

我们已领略视觉语言模型(VLM)大规模推理模型(LRM),下一个是谁?

我们需要视觉推理模型(VRM)——既能看又能推理。本文探讨如何实现它。

2 现有模型的问题

当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能看懂图像,又能深度推理的模型?

物理问题示例

我是一个学生,向 LLM 提问物理问题,并附带一张图像。

就需要一个模型能同时:

  1. 理解图像内容
  2. 进行深度推理(如分析问题、评估答案、考虑多种可能性)

就需要

本文标签: 让 LLM 既能“看”又能“推理”!