论文解读：深度研究智能体（Deep Research Agents）的定义与核心能力

Y. Huang, Y. Chen, H. Zhang, K. Li, H. Zhou, M. Fang, L. Yang, X. Li, L. Shang, S. Xu, J. Hao, K. Shao, and J. Wang, “Deep Research Agents: A Systematic Examination And Roadmap,” arXiv preprint arXiv:2506.18096, Jun. 2025. https://arxiv.org/abs/2506.18096/

大型语言模型（LLMs）的飞速发展催生了一种新型的自主人工智能系统——深度研究智能体（Deep Research, DR Agents）。DR 智能体旨在通过结合动态推理、自适应长程规划、多跳信息检索、迭代工具使用以及结构化分析报告的生成，来应对复杂、多轮次的信息研究任务。

本文将深入探讨 DR 智能体的正式定义及其在技术上区别于传统系统的核心特点。

1. 深度研究智能体的正式定义

从形式上，我们可以将“深度研究智能体”定义为：

由 LLM 驱动的 AI 智能体，它整合了动态推理、自适应规划和迭代工具使用，以获取、聚合和分析外部信息，最终产出全面结果，从而完成开放式信息研究任务。

具体而言，DR 智能体利用大语言模型作为其认知核心。它们通过网络浏览器和结构化 API 实时检索外部知识，并通过定制的工具包或诸如 模型上下文协议（Model Context Protocol, MCP） 之类的标准化接口动态调用分析工具。这种架构使 DR 智能体能够自主管理复杂的端到端研究工作流程，并将推理过程与多模态资源无缝集成。

2. 核心特点：区别于传统范式的能力

DR 智能体与早期的 AI 系统（如 GPT-3）有着本质的区别。它们显著增强了 LLM 的能力，并提供了传统检索增强生成（Retrivel Augmented Generation, RAG）方法和常规工具使用（Tool Using, TU）系统所不具备的高级特性：

核心能力	特点描述
动态推理和规划	具备持续和深度的推理能力，能够进行自适应的长程规划，并根据迭代反馈和不断发展的上下文动态重新配置任务结构。
实时和多跳检索	能够执行多跳信息检索，并通过网络浏览器和结构化 `API` 实时获取外部知识。这克服了传统 RAG 依赖静态或定期更新语料库的限制。
迭代工具使用	集成迭代工具使用能力，并通过 `MCP` 支持可扩展性和生态系统开发。
高自主性和适应性	相比于传统依赖预定义工作流程的 `TU` 系统，`DR 智能体`展现出显著更高的自主性，能够处理复杂、不断演变和知识密集型的研究场景。
结构化输出	最终目标是生成结构化分析报告，能够将分析见解转化为具体的运营任务。

1. 动态与自适应工作流

DR 智能体的工作流被系统性地划分为静态工作流和动态工作流。

静态工作流：依赖预定义的手动任务流程，适用于结构明确的研究场景，但泛化能力有限。
动态工作流：支持自适应任务规划，智能体可以根据迭代反馈和不断变化的上下文实时重新配置任务结构。动态工作流又根据智能体架构分为动态单智能体系统（如 Search-o1, Kimi-Researcher）和动态多智能体系统（如 OpenManus, OWL），以实现任务管理的专业化。

在动态规划策略方面，DR 智能体采用了三种方式来澄清用户意图并制定计划：

纯规划（Planning-Only）：直接根据初始提示生成计划（如 Grok）。
意图-规划（Intent-to-Planning）：在规划前通过有针对性的问题主动澄清用户意图（如 OpenAI DR）。
统一意图-规划（Unified Intent-Planning）：生成初步计划，并交互式地请求用户确认或修改（如 Gemini DR）。

2. 强大的信息获取机制（搜索引擎集成）

为了增强推理深度和准确性，DR 智能体利用搜索引擎与外部环境交互以更新知识。它们主要采用两种搜索引擎类型：

基于 API 的搜索引擎（API-Based SEs）：与结构化数据源（如搜索引擎 API、科学数据库 API）交互。特点是快速、高效、可扩展，具有较低的延迟和计算开销。
基于浏览器的搜索引擎（Browser-Based SEs）：模拟人类与网页的交互，实时提取动态或非结构化内容，提高了外部知识的全面性。例如，Manus AI 的浏览智能体运行沙盒化的 Chromium 实例，能够打开新标签、点击链接、滚动页面，甚至执行 JavaScript 以加载延迟部分。

混合架构结合了基于 API 方法的高效率和基于浏览器探索的全面性，是 DR 智能体的受益方向。

3. 扩展的功能模块（工具使用）

DR 智能体通过集成工具来扩展其与外部环境交互的能力。核心工具模块包括：

代码解释器（Code Interpreter）：使智能体能够在推理过程中执行脚本，用于数据处理、算法验证和模型模拟。大多数 DR 智能体（如 AutoGLM Rumination）都嵌入了脚本执行环境。
数据分析（Data Analytics）：通过计算汇总统计、生成交互式可视化和进行定量模型评估，将原始检索结果转化为结构化见解。例如，AutoGLM 可以直接从基于表格的网页界面中提取和分析结构化数据集。
多模态处理与生成（Multimodal Processing）：整合、分析和生成文本、图像、音频和视频等异构数据，以丰富上下文理解和扩展输出范围。一些成熟的商业和开源项目（如 Manus, OWL）支持此功能。

值得注意的是，一些先进的系统如 AutoGLM Rumination 已经将这种能力扩展到了计算机辅助任务执行，使其能够自主与网络环境交互、执行代码、调用 API，显著增强了在实际执行中的自主性。

4. 优化与调优机制

DR 智能体超越了简单基于提示的方法（Prompt-based methods），采用先进的优化技术来增强能力：

监督微调（SFT）：用于系统性地优化 LLMs 的关键组件，如搜索查询的制定、结构化报告的生成和外部工具的利用，以提高检索质量和减少幻觉。
强化学习（RL）：通过从实时奖励信号中学习，RL 驱动的智能体能够制定有效的搜索查询，并确定调用工具的最佳时机。RL 方法（如 PPO 和 GRPO）能够显著加强 DR 智能体的迭代信息检索、动态工具调用和集成推理能力。
非参数持续学习（Non-parametric Continual Learning）：通过优化外部记忆、工作流程和工具配置，而不是更新内部模型权重，实现可扩展的在线适应。例如，基于案例的推理（CBR）使智能体能够动态检索、适应和重用结构化的问题解决轨迹。

5. 记忆机制

为了解决长上下文处理的挑战（尤其是在多轮次检索过程中可能产生数百万 tokens 的情况下），DR 智能体实施了多种记忆机制优化：

扩展上下文窗口长度：例如，Google 的 Gemini 模型支持高达一百万个 tokens 的上下文窗口。
压缩中间步骤：通过压缩或总结中间推理步骤，减少模型处理的 tokens 数量。
利用外部结构化存储：用于持久高效地存储大量历史上下文，超出上下文窗口的限制。流行的开源框架（如 Manus）利用外部文件系统存储中间结果，而 Agentic Reasoning 则使用知识图谱来捕捉推理过程，以提高信息重用的精度。

3. 总结与展望

DR 智能体的出现标志着自动化研究支持领域的新范式，它整合了迭代信息检索、长篇内容生成、自主规划和复杂工具利用等先进技术。

工业界和学术界的领先者（如 OpenAI DR、Gemini DR、Grok DeepSearch、Perplexity DR）都已经推出了各自的 DR 智能体解决方案。

然而，该领域仍面临关键挑战，包括对静态知识库或传统搜索接口的过度依赖，以及线性规划范式和单体智能体设计对执行效率和鲁棒性的限制。未来的研究方向将着重于扩展信息源（如通过 MCP 集成更细粒度的工具）、异步并行执行（利用 DAG 结构）、工具集成推理（TIR）的进一步优化，以及多智能体架构的参数化优化（例如通过分层强化学习）。

随着 LLM 技术的不断进步，DR 智能体有望超越传统的信息检索和基本工具调用任务，解决更复杂的推理和知识构建挑战，最终成为下一代智能协作研究平台的基础技术支柱。