admin管理员组文章数量:1027408
AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡”
其实 AI Agent 本质上还是要依赖于背后的大模型能力,如果大模型能力本质上效果不佳,就算Agent 再怎么去设计,其最后的效果还是很难达到“好用”的程度。
我们先来看看 Agent 本质上其实就是能够“让 AI 真正实现自主完成任务”,其能力主要包含下面三个基本能力。
- 感知能力:让Agent 理解输入的能力
1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。
2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等
- 规划能力:让 Agent 拆解任务,看看需要执行哪些步骤
让模型再回答之前,先主动拆解一下问题,一步一步进行回答。
- 行动能力:大模型需要调用工具执行某些操作,来获取信息和输出特定的格式。比如最近很火的 MCP 协议就是为了解决这个问题而提出来的
从上面这三个能力来看,其实很依赖于大模型的基础能力,现阶段的大模型在推理和规划能力上其实本质上还是不足。
- 上下文理解有限: 当前的 Agent 通常基于大语言模型(LLM),LLM 擅长单步任务(如问答),但面对多步、跨领域任务的规划时,容易丢失上下文,出现规划失误。
- 长期任务规划与记忆困难: 多数 LLM 缺乏稳定可靠的长期记忆机制,无法持久追踪任务的整体进度,影响任务的连贯性与稳定性。
- 不确定性处理薄弱: 面对真实环境的不确定因素(如意外输入、网络波动、API失败),当前的 Agent 尚不具备足够的鲁棒性和容错能力。
所以我一直认为,如果大模型其实就是 Agent 的上限。就像 OpenAI 最近把o3 和 o4-mini的效果提升到前所未有的多模态理解和图像推理能力。这样其实就干死了很多 AI Agent 的公司。因为这类的推理大模型,本质上就是一个拥有解决很多问题的 简易 Agent。
但是又由于现在这类大模型的效果还远远达不到真的这么强,将文本、语音、视觉等不同模态信息有效整合并形成统一的理解,目前仍存在技术瓶颈。另一方面,虽然 Agent 能够调用外部工具,但由于工具种类繁多、接口标准不统一,Agent 对工具的理解、选择和精准调用仍然缺乏一致性。所以用起来还是不太好用。
综合来看,尽管现阶段开发基础版 AI Agent 较为容易,但要真正实现高效、可靠、实用的 Agent 体验,还需克服上述多重技术瓶颈,需要在基础模型能力提升、外部工具标准化、多模态融合、交互设计以及安全控制等多个方向取得重大突破。
AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡”
其实 AI Agent 本质上还是要依赖于背后的大模型能力,如果大模型能力本质上效果不佳,就算Agent 再怎么去设计,其最后的效果还是很难达到“好用”的程度。
我们先来看看 Agent 本质上其实就是能够“让 AI 真正实现自主完成任务”,其能力主要包含下面三个基本能力。
- 感知能力:让Agent 理解输入的能力
1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。
2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等
- 规划能力:让 Agent 拆解任务,看看需要执行哪些步骤
让模型再回答之前,先主动拆解一下问题,一步一步进行回答。
- 行动能力:大模型需要调用工具执行某些操作,来获取信息和输出特定的格式。比如最近很火的 MCP 协议就是为了解决这个问题而提出来的
从上面这三个能力来看,其实很依赖于大模型的基础能力,现阶段的大模型在推理和规划能力上其实本质上还是不足。
- 上下文理解有限: 当前的 Agent 通常基于大语言模型(LLM),LLM 擅长单步任务(如问答),但面对多步、跨领域任务的规划时,容易丢失上下文,出现规划失误。
- 长期任务规划与记忆困难: 多数 LLM 缺乏稳定可靠的长期记忆机制,无法持久追踪任务的整体进度,影响任务的连贯性与稳定性。
- 不确定性处理薄弱: 面对真实环境的不确定因素(如意外输入、网络波动、API失败),当前的 Agent 尚不具备足够的鲁棒性和容错能力。
所以我一直认为,如果大模型其实就是 Agent 的上限。就像 OpenAI 最近把o3 和 o4-mini的效果提升到前所未有的多模态理解和图像推理能力。这样其实就干死了很多 AI Agent 的公司。因为这类的推理大模型,本质上就是一个拥有解决很多问题的 简易 Agent。
但是又由于现在这类大模型的效果还远远达不到真的这么强,将文本、语音、视觉等不同模态信息有效整合并形成统一的理解,目前仍存在技术瓶颈。另一方面,虽然 Agent 能够调用外部工具,但由于工具种类繁多、接口标准不统一,Agent 对工具的理解、选择和精准调用仍然缺乏一致性。所以用起来还是不太好用。
综合来看,尽管现阶段开发基础版 AI Agent 较为容易,但要真正实现高效、可靠、实用的 Agent 体验,还需克服上述多重技术瓶颈,需要在基础模型能力提升、外部工具标准化、多模态融合、交互设计以及安全控制等多个方向取得重大突破。
本文标签: AI Agent 都是噱头真相揭示它们其实只是模型的“傀儡”
版权声明:本文标题:AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡” 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1747389851a2162830.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论