智能体工程现状

URL 来源: https://www.langchain.com/state-of-agent-engineering 发布时间: Tue, 16 Dec 2025 16:34:01 GMT

我们调查了 1300 多名专业人士——从工程师和产品经理到商业领袖和高管——以揭示 AI 智能体的现状。让我们深入研究数据，剖析 AI 智能体在今天是如何被使用（或未被使用）的。

1. 简介

随着我们进入 2026 年，各组织不再询问是否构建智能体，而是询问如何可靠、高效和大规模地部署它们。我们调查了 1300 多名专业人士，以了解他们如何发展其 AI 智能体用例并处理智能体工程挑战。

主要发现：

生产势头强劲：57% 的受访者已将智能体投入生产，其中大型企业在采用方面处于领先地位。
质量是生产杀手：32% 的受访者将其列为首要障碍。与此同时，对成本的担忧较去年有所下降。
可观测性是基本要求：近 89% 的受访者为其智能体实施了可观测性，超过了 52% 的评估 (evals) 采用率。
使用多种模型是常态：OpenAI 凭借其 GPT 模型处于领先地位，但 Gemini、Claude 和开源模型也获得了显著采用。微调尚未被广泛采用。

2. 洞察

什么是智能体工程？智能体工程是将大语言模型 (LLM) 转化为可靠系统的迭代过程。由于智能体具有非确定性，我们认为工程师需要快速迭代以优化并提升智能体质量。

2.1 大型企业正在引领应用

超过半数 的受访者 (57.3%) 目前已在生产环境中运行智能体，另有 30.4% 的受访者正在积极开发智能体，并有具体的部署计划。

这标志着相比去年的调查有了明显的增长，去年只有 51% 的受访者表示已在生产环境中使用智能体。各组织正在跨越概念验证 (PoC) 阶段进入生产阶段——对于大多数组织而言，问题不再是“是否”会推出智能体，而是“如何”以及“何时”推出。

贵组织当前是否有智能体在生产环境中？

规模化带来的变化：

在万人以上规模的组织中，67% 已在生产环境中使用智能体，24% 正在积极开发并计划投产；而在百人以下规模的组织中，这一比例分别为 50% 和 36%。这表明大型组织从试点向持久化系统的转变速度更快，这可能是由在平台团队、安全性和可靠性基础设施方面的更大投入所驱动的。

贵组织当前是否有智能体在生产环境中？

2.2 主要的智能体应用场景

贵组织的主要智能体用例是什么？

客户服务领域的强劲表现表明，团队正转向将智能体直接面向客户，而不仅仅是在内部使用。与此同时，智能体继续在内部发挥明显的价值，18% 的受访者表示使用智能体进行内部工作流自动化以提升员工效率。

研究与数据分析用例的普及进一步印证了智能体当下的优势所在：综合大量信息、跨源推理以及加速知识密集型任务。

值得注意的是，我们看到今年受访者选择的 用例分布更加广泛（受访者只能选择一个主要用例），这表明智能体的采用可能正从早期狭窄的应用范围向多元化发展。

规模化带来的变化：

在拥有 10k+ 员工 的组织中，内部生产力是首要用例 (26.8%)，紧随其后的是客户服务 (24.7%) 和研究与数据分析 (22.2%)。大型企业可能倾向于优先关注提升内部团队的效率，然后才是（或同步进行）将智能体直接部署给终端用户。

2.3 生产环境面临的最大障碍

与去年的调查结果一致，质量仍然是生产环境面临的最大障碍。今年，三分之一的受访者将质量列为主要阻碍因素。这包括准确性、相关性、一致性，以及智能体保持正确语调并遵守品牌或政策准则的能力。

贵组织将智能体投入生产的最大阻碍是什么？

延迟已成为第二大挑战 (20%)。随着智能体进入客户服务和代码生成等面向客户的用例，响应时间成为用户体验的关键部分。这也反映了团队在质量和速度之间的权衡，因为能力更强、多步骤的智能体可以提供更高质量的输出，但通常响应速度较慢。

相比之下，成本被提及的频率低于往年。模型价格的下降和效率的提高似乎将关注点从单纯的支出转移开来，组织现在更优先考虑让智能体运行得更好、更快。

规模化带来的变化：

在企业（2k+ 员工）中，质量仍然是首要阻碍，但安全性成为第二大担忧，24.9% 的受访者提到了这一点——超过了延迟，而延迟在较小规模的组织中更为常见。

贵组织将智能体投入生产的最大阻碍是什么？

对于 10k+ 员工的组织，书面反馈指出智能体产生的 幻觉和输出一致性 是确保智能体质量的最大挑战。许多受访者还提到了在上下文工程和大规模上下文管理方面持续存在的困难。

2.4 智能体的可观测性

追踪多步推理链和工具调用的能力已成为智能体的 基本要求。89% 的组织 为其智能体实施了某种形式的可观测性，62% 拥有详细的追踪功能，允许他们检查单个智能体步骤和工具调用。

贵组织是否已为智能体设置了可观测性能力？

在已将智能体投入生产的受访者中，采用率甚至更高： 94% 拥有某种形式的可观测性，71.5% 拥有完整的追踪能力。这说明了智能体工程的一个基本事实：如果无法洞察智能体如何推理和行动，团队就无法可靠地调试故障、优化性能，或与内部和外部利益相关者建立信任。

在将智能体投入生产的情况下，贵组织是否为智能体设置了可观测性能力？

2.5 智能体的评估与测试

虽然可观测性已被广泛采用，但智能体评估 (Evals) 仍在追赶并获得更多关注。略多于一半的组织 (52.4%) 报告在测试集上运行 离线评估，这表明许多团队认识到在部署前发现回归和验证智能体行为的重要性。在线评估的采用率较低 (37.3%)，但随着团队开始监控现实世界的智能体性能，这一比例正在增长。

贵组织从哪些方面评估智能体？（可多选）

对于已将智能体投入生产的组织，评估实践可能更为成熟，因为整体评估采用率明显更高（“不评估”的比例从 29.5% 降至 22.8%）。我们也看到更多组织在运行在线评估 (44.8%)，这表明一旦智能体面向真实用户，团队就需要观察生产数据以实时检测问题。

在将智能体投入生产的情况下，贵组织从哪些方面评估智能体？

大多数团队仍从 离线评估 开始，这可能是因为其门槛较低且设置更清晰，但许多团队正在采用分层方法。在运行任何评估的组织中，近四分之一结合了 离线和在线评估。

对于正在运行评估的团队，贵组织采用哪种方法？

这些运行评估的组织还 依赖人工和自动化相结合的方法进行评估，实施“大模型作为裁判 (LLM-as-judge)”以实现广度覆盖，并利用人工审查进行深度分析。更广泛地看，人工审查 (59.8%) 在微妙或高风险的情况下仍然至关重要，而“大模型作为裁判”方法 (53.3%) 正越来越多地用于扩展对质量、事实准确性和准则遵守情况的评估。相比之下，传统的机器学习指标如 ROUGE 和 BLEU 的采用率有限。这些指标可能不太适合存在多种有效回答的开放式智能体交互。

贵组织用哪些指标评估智能体？（可多选）

2.6 模型与工具生态

OpenAI 模型在应用中占据主导地位，但 很少有团队只押注于单一供应商。

超过三分之二的组织报告使用 OpenAI 的 GPT 模型，但模型多样化已成为常态——超过四分之三的组织在生产或开发中使用多种模型。 团队越来越多地根据复杂性、成本和延迟等因素将任务路由到不同的模型，而不是选择平台锁定。

贵组织的智能体使用了哪些模型？（可多选）

尽管商业 API 非常便捷，但对于许多组织而言，在内部运行模型仍然是一项重要策略。三分之一的组织报告投资于部署自有模型所需的基础设施和专业知识。这种开源模型的采用可能是由大批量成本优化、数据驻留和主权要求，或敏感行业的监管限制所驱动的。

与此同时，微调仍然是专业化的，尚未标准化。大多数组织 (57%) 没有微调模型，而是依赖基础模型结合提示工程 (Prompt Engineering) 和检索增强生成 (RAG)。由于微调需要在数据收集、标注、训练基础设施和持续维护方面投入大量资金，它似乎主要保留给高影响力或专业化的用例。

贵组织是否对任何模型进行了微调？

2.7 哪些智能体正在被日常使用？

当被问及 “你在日常生活中最常使用哪些智能体？” 时，书面回复中出现了一些清晰的模式。

1. 编程智能体主导日常工作流：

目前为止，最常被提及的智能体是编程助手。受访者反复提到像 Claude Code, Cursor, GitHub Copilot, Amazon Q, Windsurf, 和 Antigravity 这样的工具，将其作为日常开发循环的一部分，无论是用于代码生成、调试、创建测试，还是浏览大型代码库。

受访者日常使用的主要智能体

2. 研究与深度研究智能体的使用率紧随其后：

第二种常见的模式是由 ChatGPT, Claude, Gemini, Perplexity 和类似工具驱动的 研究与深度研究智能体。这些智能体用于探索新领域、总结长文档以及综合跨源信息。它们通常作为编程智能体的伴侣在同一工作流中使用。

3. 基于 LangChain 和 LangGraph 构建的自定义智能体也很受欢迎：

第三类独特的回答指向 自定义智能体，许多受访者基于 LangChain 和 LangGraph 进行构建。受访者描述了用于 QA 测试、内部知识库搜索、SQL/Text-to-SQL、需求规划、客户支持和工作流自动化等方面的内部智能体。

还有相当一部分少数受访者指出，除了 LLM 聊天或编程辅助外，他们尚未使用其他智能体，这强调了虽然智能体的使用已很广泛，但更广泛的“万物智能体化 (agentic everything)”仍处于早期阶段。

3. 方法论

本报告的见解汇总自我们在 2025 年 11 月 18 日至 12 月 2 日期间进行的为期 2 周的公开调查。我们收到了 1340 份回复。以下是一些人口统计数据：

前 5 大行业：

技术 (63% 的受访者)
金融服务 (10% 的受访者)
医疗保健 (6% 的受访者)
教育 (4% 的受访者)
消费品 (3% 的受访者)
制造业 (3% 的受访者)

公司规模：

<100 人 (49% 的受访者)
100-500 人 (18% 的受访者)
500-2000 人 (15% 的受访者)
2000-10,000 人 (9% 的受访者)
10,000+ 人 (9% 的受访者)