admin管理员组文章数量:1037775
关于DeepResearch设计实现的碎碎念
前言
最近我们通过一些新闻博客包括LLMs产品的推出,DeepSearch
和DeepResearch
这两个词不断的映入我们眼帘。
图片来源:Jina,DeepSearch 与 DeepResearch 的设计和实现
一个有趣的发现是,DeepSearch 和 DeepResearch 不仅限于 OpenAI,之前一直听说OpenAI的DeepResearch特别厉害,最近许多公司如 Jina AI、Perplexity 和 Google 也在开发类似工具。例如,Jina AI 推出了开源的 node-deepresearch,X AI 将 DeepSearch 集成到 Grok3 中,形成了DeepResearch 的变体。这可能表明AI 搜索和研究工具正迅速多样化,可能在未来几年内成为大模型的特色功能。
在探讨DeepResearch设计与实现之前,我们先回顾下大模型问答、RAG 问答、DeepSearch 和 DeepResearch 的定义与区别,也从不同维度进行对比,以帮助我们更好理解它们之间的差异性。
大模型问答、RAG问答、DeepSearch 和 DeepResearch对比
这些术语经常在我们使用大模型的时候出现,然后它们也在提高我们生产效率变得日益重要,特别是在问答和信息检索的背景下。以下是详细分析,涵盖定义、实现方式和差异。
什么是大模型问答?
这个我们再熟悉不过了
**大模型问答指的是利用大型语言模型(LLM)来回答用户提出的问题。**这些模型,如GPT 系列,通常通过海量文本数据训练,具备理解和生成自然语言的能力。
- 由于LLM 包含大量参数,需要高计算资源,尤其对实时推理这个要求会更高。
- 在大模型问答中,模型直接基于其预训练知识生成答案。例如,询问“地球的直径是多少?”,模型会从训练数据中提取答案。然而,其局限在于知识的时效性和覆盖范围。例如,2025 年最新的科学发现可能不在模型训练数据中,导致答案不准确。
- 从应用场景看,大模型问答适合简单、常见问题,但对于需要实时或特定领域知识的问题,表现可能有限,模型可能出现“幻觉”(hallucination),即生成不准确或虚构的信息,尤其在复杂或新颖问题上。
什么是 RAG 问答?
RAG 问答,即检索增强生成问答,是一种结合检索和生成的技术。RAG 框架通过从知识库中检索相关信息,然后由 LLM 生成答案,增强了回答的准确性和时效性。 过程包括:
- 检索:给定用户查询,系统搜索知识库(如文档、网页)找到相关内容,通常通过向量相似性搜索。
- 生成:LLM 基于检索到的信息生成自然语言答案。
例如,在医疗问答中,RAG 可能从最新医学文献中检索数据,确保答案基于当前研究。
研究显示,RAG 在开放域问答(如 HotpotQA、TriviaQA)中表现优于纯 LLM,尤其在多跳问答(multi-hop QA)中,需结合多个信息源。相比大模型问答,RAG 更依赖外部知识库的更新和质量,知识库可以是结构化(如数据库)或非结构化(如 PDF、网页)。
什么是 DeepSearch?
DeepSearch 是一个较新的术语,尚未完全标准化,但从多个来源来看,它指的是一种迭代的搜索过程,涉及搜索、阅读和推理的循环。根据Jina前几天比较火的文章 A Practical Guide to Implementing DeepSearch/DeepResearch描述: DeepSearch 被描述为“搜索、阅读和推理直到找到最佳答案”,类似于 RAG 但更强调多步工具使用。例如,AI 可能先搜索相关文档,阅读内容,推理下一步搜索方向,再继续优化。
这种方法特别适合复杂问题,需要逐步细化信息。
从实现上看,DeepSearch 可能涉及工具链,如向量搜索、关键词搜索,甚至 web 爬虫,结合 LLM 的推理能力。Jina AI 的博客提到,DeepSearch 在 2025 年已成为搜索新标准,特别是在 Deepseek-r1 模型发布后,Baidu 和 Tencent 等平台已集成类似功能。相比 RAG,DeepSearch 的迭代性质可能提高检索精度,但也可能增加计算成本。
什么是 DeepResearch?
DeepResearch 是一个具体工具或功能,特别是在 OpenAI 的 ChatGPT 中实现。根据 OpenAI’s ‘deep research’ tool: is it useful for scientists?来看:
DeepResearch 是一个 AI 代理,能自主浏览网页,生成带引用的长篇详细报告,处理复杂研究任务。
Jina文章中也提到:
DeepResearch 是在 DeepSearch 的基础上,增加了一个结构化的框架,用于生成长篇的研究报告。 它的工作流程一般从创建目录开始,然后系统性地将 DeepSearch 应用于报告的每一个所需部分:从引言到相关工作、再到方法论,直至最后的结论。报告的每个章节都是通过将特定的研究问题输入到 DeepSearch 中来生成的。最后将所有章节整合到一个提示词中,以提高报告整体叙述的连贯性。
我们可以看到DeepResearch是DeepSearch高级版本
例如,用户输入“2025 年 AI 趋势”,DeepResearch 会搜索相关网站,整理信息,输出结构化报告,包含关键发现和链接。
从技术上看,DeepResearch 基于 LLM(如 OpenAI 的 o3 模型)和“代理框架”(agentic framework),指导模型使用工具如 web 搜索,按步骤组织行动。根据ChatGPT Deep Research介绍,它能解读文本、图像和 PDF,计划支持可视化输出,但可能存在“幻觉”问题,如事实错误或无法区分权威来源。
但是使用比较昂贵当前,DeepResearch 提供给 ChatGPT Pro 用户(每月 200 美元,100 次查询),并计划扩展到 Plus、Team 和 Enterprise 用户(每月 10 次查询)。
四者对比分析
以下表格总结四者的关键差异:
方面 | 大模型问答 | RAG 问答 | DeepSearch | DeepResearch |
---|---|---|---|---|
信息来源 | 模型内部预训练知识 | 外部知识库(文档、数据库) | 动态搜索,迭代获取信息 | 自主 web 搜索,生成报告 |
过程 | 直接生成答案 | 检索 + 生成 | 搜索-阅读-推理的迭代循环 | 自动研究,生成带引用的报告 |
输出形式 | 简短文本答案 | 基于检索的答案 | 可能涉及详细推理过程 | 长篇结构化报告,含引用 |
适用场景 | 简单问题,常见知识 | 需要实时数据的复杂问题 | 复杂问题,需要多步推理 | 深入研究任务,生成报告 |
局限 | 知识时效性差,可能出现幻觉 | 依赖知识库质量,检索可能冗余 | 计算成本高,迭代复杂 | 可能有幻觉,区分权威性困难 |
从上述对比看,大模型问答是最基础的形式,RAG 问答通过检索增强了准确性,DeepSearch 进一步迭代优化搜索过程,而 DeepResearch 则是自动化的研究工具,输出形式更适合学术或专业需求。
DeepResearch实现
由于Jina开源的node-DeepResearch是Typescript开发,笔者在TrustRAG框架基础之上,用python实现了一个简易版本的DeepResearch,以下为实现逻辑。
DeepResearch流程设计
DeepResearch流程示意图如下:
DeepResearch 框架通过分层查询、递归迭代以及智能决策等步骤,实现深度信息搜索和处理。本流程主要包含以下关键步骤:
1. 意图理解(Intent Understanding) 用户输入查询后,系统会将其解析为多个子查询,以便更精确地理解用户需求。
2. 处理条件判断 系统会根据如下条件判断是否继续执行:
- Token 预算是否超出
- 动作深度是否超出
如果满足上述条件,则终止查询并直接返回答案;否则进入递归执行步骤。
3. 递归执行步骤 在递归执行过程中,系统执行信息检索、模型推理及上下文处理等任务 信息检索
- 获取当前问题
- 构建问题执行序列
- 递归遍历
- 深度优先搜索
- 模型推理 系统进行模型推理,通过系统提示和上下文理解来判断下一步动作。
4. 动作类型判定 根据推理结果,系统决定下一步执行的动作类型:
- answer:回答动作
- reflect:反思动作
- search:搜索动作
- read:阅读动作
- coding:代码动作 这些动作会影响上下文,并不断更新系统状态。
5. 结果反馈 根据最终的动作类型,系统执行相应的任务,并将结果返回给用户,完成整个流程。
以上流程是根据一些开源方案理解大致拍了一下,大家也可以根据自己的理解去设计,这里仅限参考。
DeepResearch实测
下面是一个测试例子,查询问题为:大模型强化学习技术
代码语言:javascript代码运行次数:0运行复制关于DeepResearch设计实现的碎碎念
前言
最近我们通过一些新闻博客包括LLMs产品的推出,DeepSearch
和DeepResearch
这两个词不断的映入我们眼帘。
图片来源:Jina,DeepSearch 与 DeepResearch 的设计和实现
一个有趣的发现是,DeepSearch 和 DeepResearch 不仅限于 OpenAI,之前一直听说OpenAI的DeepResearch特别厉害,最近许多公司如 Jina AI、Perplexity 和 Google 也在开发类似工具。例如,Jina AI 推出了开源的 node-deepresearch,X AI 将 DeepSearch 集成到 Grok3 中,形成了DeepResearch 的变体。这可能表明AI 搜索和研究工具正迅速多样化,可能在未来几年内成为大模型的特色功能。
在探讨DeepResearch设计与实现之前,我们先回顾下大模型问答、RAG 问答、DeepSearch 和 DeepResearch 的定义与区别,也从不同维度进行对比,以帮助我们更好理解它们之间的差异性。
大模型问答、RAG问答、DeepSearch 和 DeepResearch对比
这些术语经常在我们使用大模型的时候出现,然后它们也在提高我们生产效率变得日益重要,特别是在问答和信息检索的背景下。以下是详细分析,涵盖定义、实现方式和差异。
什么是大模型问答?
这个我们再熟悉不过了
**大模型问答指的是利用大型语言模型(LLM)来回答用户提出的问题。**这些模型,如GPT 系列,通常通过海量文本数据训练,具备理解和生成自然语言的能力。
- 由于LLM 包含大量参数,需要高计算资源,尤其对实时推理这个要求会更高。
- 在大模型问答中,模型直接基于其预训练知识生成答案。例如,询问“地球的直径是多少?”,模型会从训练数据中提取答案。然而,其局限在于知识的时效性和覆盖范围。例如,2025 年最新的科学发现可能不在模型训练数据中,导致答案不准确。
- 从应用场景看,大模型问答适合简单、常见问题,但对于需要实时或特定领域知识的问题,表现可能有限,模型可能出现“幻觉”(hallucination),即生成不准确或虚构的信息,尤其在复杂或新颖问题上。
什么是 RAG 问答?
RAG 问答,即检索增强生成问答,是一种结合检索和生成的技术。RAG 框架通过从知识库中检索相关信息,然后由 LLM 生成答案,增强了回答的准确性和时效性。 过程包括:
- 检索:给定用户查询,系统搜索知识库(如文档、网页)找到相关内容,通常通过向量相似性搜索。
- 生成:LLM 基于检索到的信息生成自然语言答案。
例如,在医疗问答中,RAG 可能从最新医学文献中检索数据,确保答案基于当前研究。
研究显示,RAG 在开放域问答(如 HotpotQA、TriviaQA)中表现优于纯 LLM,尤其在多跳问答(multi-hop QA)中,需结合多个信息源。相比大模型问答,RAG 更依赖外部知识库的更新和质量,知识库可以是结构化(如数据库)或非结构化(如 PDF、网页)。
什么是 DeepSearch?
DeepSearch 是一个较新的术语,尚未完全标准化,但从多个来源来看,它指的是一种迭代的搜索过程,涉及搜索、阅读和推理的循环。根据Jina前几天比较火的文章 A Practical Guide to Implementing DeepSearch/DeepResearch描述:
DeepSearch 被描述为“搜索、阅读和推理直到找到最佳答案”,类似于 RAG 但更强调多步工具使用。例如,AI 可能先搜索相关文档,阅读内容,推理下一步搜索方向,再继续优化。
这种方法特别适合复杂问题,需要逐步细化信息。
从实现上看,DeepSearch 可能涉及工具链,如向量搜索、关键词搜索,甚至 web 爬虫,结合 LLM 的推理能力。Jina AI 的博客提到,DeepSearch 在 2025 年已成为搜索新标准,特别是在 Deepseek-r1 模型发布后,Baidu 和 Tencent 等平台已集成类似功能。相比 RAG,DeepSearch 的迭代性质可能提高检索精度,但也可能增加计算成本。
什么是 DeepResearch?
DeepResearch 是一个具体工具或功能,特别是在 OpenAI 的 ChatGPT 中实现。根据 OpenAI’s ‘deep research’ tool: is it useful for scientists?来看:
DeepResearch 是一个 AI 代理,能自主浏览网页,生成带引用的长篇详细报告,处理复杂研究任务。
Jina文章中也提到:
DeepResearch 是在 DeepSearch 的基础上,增加了一个结构化的框架,用于生成长篇的研究报告。 它的工作流程一般从创建目录开始,然后系统性地将 DeepSearch 应用于报告的每一个所需部分:从引言到相关工作、再到方法论,直至最后的结论。报告的每个章节都是通过将特定的研究问题输入到 DeepSearch 中来生成的。最后将所有章节整合到一个提示词中,以提高报告整体叙述的连贯性。
我们可以看到DeepResearch是DeepSearch高级版本
例如,用户输入“2025 年 AI 趋势”,DeepResearch 会搜索相关网站,整理信息,输出结构化报告,包含关键发现和链接。
从技术上看,DeepResearch 基于 LLM(如 OpenAI 的 o3 模型)和“代理框架”(agentic framework),指导模型使用工具如 web 搜索,按步骤组织行动。根据ChatGPT Deep Research介绍,它能解读文本、图像和 PDF,计划支持可视化输出,但可能存在“幻觉”问题,如事实错误或无法区分权威来源。
但是使用比较昂贵当前,DeepResearch 提供给 ChatGPT Pro 用户(每月 200 美元,100 次查询),并计划扩展到 Plus、Team 和 Enterprise 用户(每月 10 次查询)。
四者对比分析
以下表格总结四者的关键差异:
方面
大模型问答
RAG 问答
DeepSearch
DeepResearch
信息来源
模型内部预训练知识
外部知识库(文档、数据库)
动态搜索,迭代获取信息
自主 web 搜索,生成报告
过程
直接生成答案
检索 + 生成
搜索-阅读-推理的迭代循环
自动研究,生成带引用的报告
输出形式
简短文本答案
基于检索的答案
可能涉及详细推理过程
长篇结构化报告,含引用
适用场景
简单问题,常见知识
需要实时数据的复杂问题
复杂问题,需要多步推理
深入研究任务,生成报告
局限
知识时效性差,可能出现幻觉
依赖知识库质量,检索可能冗余
计算成本高,迭代复杂
可能有幻觉,区分权威性困难
从上述对比看,大模型问答是最基础的形式,RAG 问答通过检索增强了准确性,DeepSearch 进一步迭代优化搜索过程,而 DeepResearch 则是自动化的研究工具,输出形式更适合学术或专业需求。
DeepResearch实现
由于Jina开源的node-DeepResearch是Typescript开发,笔者在TrustRAG框架基础之上,用python实现了一个简易版本的DeepResearch,以下为实现逻辑。
DeepResearch流程设计
DeepResearch流程示意图如下:
DeepResearch 框架通过分层查询、递归迭代以及智能决策等步骤,实现深度信息搜索和处理。本流程主要包含以下关键步骤:
1. 意图理解(Intent Understanding)
用户输入查询后,系统会将其解析为多个子查询,以便更精确地理解用户需求。
2. 处理条件判断
系统会根据如下条件判断是否继续执行:
- Token 预算是否超出
- 动作深度是否超出
如果满足上述条件,则终止查询并直接返回答案;否则进入递归执行步骤。
3. 递归执行步骤
在递归执行过程中,系统执行信息检索、模型推理及上下文处理等任务
信息检索
- 获取当前问题
- 构建问题执行序列
- 递归遍历
- 深度优先搜索
- 模型推理 系统进行模型推理,通过系统提示和上下文理解来判断下一步动作。
4. 动作类型判定
根据推理结果,系统决定下一步执行的动作类型:
- answer:回答动作
- reflect:反思动作
- search:搜索动作
- read:阅读动作
- coding:代码动作
这些动作会影响上下文,并不断更新系统状态。
5. 结果反馈
根据最终的动作类型,系统执行相应的任务,并将结果返回给用户,完成整个流程。
以上流程是根据一些开源方案理解大致拍了一下,大家也可以根据自己的理解去设计,这里仅限参考。
DeepResearch实测
下面是一个测试例子,查询问题为:大模型强化学习技术
代码语言:javascript代码运行次数:0运行复制
本文标签:
关于DeepResearch设计实现的碎碎念
版权声明:本文标题:关于DeepResearch设计实现的碎碎念 内容由热心网友自发贡献,该文观点仅代表作者本人,
转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1748358427a2290504.html,
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论