admin管理员组

文章数量:1027408

AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡”

其实 AI Agent 本质上还是要依赖于背后的大模型能力,如果大模型能力本质上效果不佳,就算Agent 再怎么去设计,其最后的效果还是很难达到“好用”的程度。

我们先来看看 Agent 本质上其实就是能够“让 AI 真正实现自主完成任务”,其能力主要包含下面三个基本能力。

  • 感知能力:让Agent 理解输入的能力

1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。

2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等

  • 规划能力:让 Agent 拆解任务,看看需要执行哪些步骤

让模型再回答之前,先主动拆解一下问题,一步一步进行回答。

  • 行动能力:大模型需要调用工具执行某些操作,来获取信息和输出特定的格式。比如最近很火的 MCP 协议就是为了解决这个问题而提出来的

从上面这三个能力来看,其实很依赖于大模型的基础能力,现阶段的大模型在推理和规划能力上其实本质上还是不足。

  • 上下文理解有限: 当前的 Agent 通常基于大语言模型(LLM),LLM 擅长单步任务(如问答),但面对多步、跨领域任务的规划时,容易丢失上下文,出现规划失误。
  • 长期任务规划与记忆困难: 多数 LLM 缺乏稳定可靠的长期记忆机制,无法持久追踪任务的整体进度,影响任务的连贯性与稳定性。
  • 不确定性处理薄弱: 面对真实环境的不确定因素(如意外输入、网络波动、API失败),当前的 Agent 尚不具备足够的鲁棒性和容错能力。

所以我一直认为,如果大模型其实就是 Agent 的上限。就像 OpenAI 最近把o3 和 o4-mini的效果提升到前所未有的多模态理解和图像推理能力。这样其实就干死了很多 AI Agent 的公司。因为这类的推理大模型,本质上就是一个拥有解决很多问题的 简易 Agent。

但是又由于现在这类大模型的效果还远远达不到真的这么强,将文本、语音、视觉等不同模态信息有效整合并形成统一的理解,目前仍存在技术瓶颈。另一方面,虽然 Agent 能够调用外部工具,但由于工具种类繁多、接口标准不统一,Agent 对工具的理解、选择和精准调用仍然缺乏一致性。所以用起来还是不太好用。

综合来看,尽管现阶段开发基础版 AI Agent 较为容易,但要真正实现高效、可靠、实用的 Agent 体验,还需克服上述多重技术瓶颈,需要在基础模型能力提升、外部工具标准化、多模态融合、交互设计以及安全控制等多个方向取得重大突破。

AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡”

其实 AI Agent 本质上还是要依赖于背后的大模型能力,如果大模型能力本质上效果不佳,就算Agent 再怎么去设计,其最后的效果还是很难达到“好用”的程度。

我们先来看看 Agent 本质上其实就是能够“让 AI 真正实现自主完成任务”,其能力主要包含下面三个基本能力。

  • 感知能力:让Agent 理解输入的能力

1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。

2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等

  • 规划能力:让 Agent 拆解任务,看看需要执行哪些步骤

让模型再回答之前,先主动拆解一下问题,一步一步进行回答。

  • 行动能力:大模型需要调用工具执行某些操作,来获取信息和输出特定的格式。比如最近很火的 MCP 协议就是为了解决这个问题而提出来的

从上面这三个能力来看,其实很依赖于大模型的基础能力,现阶段的大模型在推理和规划能力上其实本质上还是不足。

  • 上下文理解有限: 当前的 Agent 通常基于大语言模型(LLM),LLM 擅长单步任务(如问答),但面对多步、跨领域任务的规划时,容易丢失上下文,出现规划失误。
  • 长期任务规划与记忆困难: 多数 LLM 缺乏稳定可靠的长期记忆机制,无法持久追踪任务的整体进度,影响任务的连贯性与稳定性。
  • 不确定性处理薄弱: 面对真实环境的不确定因素(如意外输入、网络波动、API失败),当前的 Agent 尚不具备足够的鲁棒性和容错能力。

所以我一直认为,如果大模型其实就是 Agent 的上限。就像 OpenAI 最近把o3 和 o4-mini的效果提升到前所未有的多模态理解和图像推理能力。这样其实就干死了很多 AI Agent 的公司。因为这类的推理大模型,本质上就是一个拥有解决很多问题的 简易 Agent。

但是又由于现在这类大模型的效果还远远达不到真的这么强,将文本、语音、视觉等不同模态信息有效整合并形成统一的理解,目前仍存在技术瓶颈。另一方面,虽然 Agent 能够调用外部工具,但由于工具种类繁多、接口标准不统一,Agent 对工具的理解、选择和精准调用仍然缺乏一致性。所以用起来还是不太好用。

综合来看,尽管现阶段开发基础版 AI Agent 较为容易,但要真正实现高效、可靠、实用的 Agent 体验,还需克服上述多重技术瓶颈,需要在基础模型能力提升、外部工具标准化、多模态融合、交互设计以及安全控制等多个方向取得重大突破。

本文标签: AI Agent 都是噱头真相揭示它们其实只是模型的“傀儡”