Databricks Assistant Data Science Agent 使用场景指南
1. 概述
Databricks Assistant Data Science Agent 是 Databricks Assistant 的重大升级,从简单的代码助手演进为真正的自主数据科学合作伙伴。该 Agent 完全集成在 Databricks Notebooks 和 SQL Editor 中,将智能化、适应性和执行能力融合在单一体验中。
核心特性:
- 从 Copilot 到 Agent:从简单的代码生成助手升级为能够推理、规划和自主执行复杂多步骤流程的智能代理
- 企业级数据感知:基于 Unity Catalog 提供的统一策略、血缘关系和业务语义,确保数据治理和透明度
- 可信赖的自动化:将原始自动化转化为可信赖的加速工具,在保持透明度和严谨性的同时压缩从问题到洞察的时间
2. 主要使用场景
2.1 数据探索与分析
2.1.1 探索性数据分析(EDA)
使用方式:
对 @table 执行探索性数据分析,识别有趣的模式
Agent 能力:
- 自动分析列统计信息
- 生成数据分布可视化
- 识别数据质量问题和异常值
- 提供数据洞察和模式发现
- 解释图表内容和分析结果
示例场景:
- 分析
@sales_transactions表的销售趋势和客户行为模式 - 识别数据集中的缺失值、重复值和异常值
- 生成相关性分析和特征重要性评估
产品设计评价:
该功能体现了渐进式交互设计的优势,用户只需提供简单的自然语言指令,Agent 便能自主完成复杂的多步骤分析。这种设计降低了数据科学的技术门槛,让非专业用户也能快速获得专业级的数据洞察。同时,基于 Unity Catalog 的上下文感知能力确保了分析的准确性和相关性。
2.1.2 数据发现与结构探索
Agent 能力:
- 通过 Unity Catalog 搜索相关数据表
- 自动识别和查询数据集结构
- 支持
@表名引用语法,利用丰富的元数据 - 提供表结构和字段说明
典型查询:
- “哪个表包含销售交易数据?”
- “展示某表前 10 行数据”
- “查找包含客户信息的所有表”
产品设计评价:
@表名 引用语法的设计体现了产品的智能化和用户友好性。这种设计不仅简化了数据引用方式,更重要的是利用了企业级元数据管理的优势,实现了真正的上下文感知。相比传统的数据查询工具,这种交互方式更接近人类的自然思维模式。
2.2 机器学习开发
2.2.1 模型训练与评估
使用方式:
基于 @sales_table 训练一个销售预测模型
Agent 能力:
- 自动执行数据预处理和特征工程
- 选择合适的算法和模型架构
- 进行超参数调优
- 使用 MLflow 进行模型管理和版本控制
- 生成模型评估报告(准确率、AUC、混淆矩阵等)
产品设计评价:
机器学习开发功能展现了 Agent 的端到端自动化能力,这种设计大幅降低了 ML 开发的复杂度。特别值得注意的是与 MLflow 的深度集成,体现了产品生态系统的完整性。透明的模型评估和版本控制机制确保了企业级应用的可信度和可追溯性。
2.2.2 时间序列预测
应用场景:
- 基于
@incidents数据集构建未来两周的每日事件数量预测 - 网站流量或库存需求的月度/季度预测
- 包含置信区间和季节性模式分析的预测结果
产品设计评价:
时间序列预测功能体现了 Agent 在专业领域的深度能力。自动处理季节性模式和置信区间计算展现了产品的专业性,而简洁的自然语言交互界面则保持了易用性。这种专业能力与简单交互的平衡是产品设计的一大亮点。
2.3 错误诊断与修复
增强功能:
- 扩展现有的”诊断错误”按钮功能
- 在 Agent 模式下进行迭代修复
- 自动尝试多种解决方案直到问题解决
- 提供详细的错误分析和修复建议
产品设计评价:
错误诊断功能展现了优秀的用户体验设计,从被动的错误提示升级为主动的问题解决。迭代修复机制体现了 Agent 的智能化程度,而详细的错误分析则保持了过程的透明度。这种设计有效减少了用户的挫败感,提升了开发效率。
2.4 结果总结与解释
Agent 能力:
- 自动总结分析结果和关键发现
- 解释复杂的统计结果和模型输出
- 生成面向不同受众的报告
- 建议后续分析步骤或业务行动
产品设计评价:
结果总结功能体现了产品对不同用户群体需求的深度理解。面向不同受众生成报告的能力展现了 Agent 的适应性,而后续行动建议则体现了从分析到决策的完整闭环设计。这种设计有效提升了数据分析的业务价值转化效率。
3. 高级功能:Planner 模式
3.1 规划式工作流程
启用方式:在 Assistant 线程开始时开启 Planner 功能
工作流程:
- 制定计划:Agent 在执行前起草详细的解决方案步骤
- 澄清需求:根据需要提出澄清性问题
- 计划优化:基于用户输入完善和调整计划
- 逐步执行:获得确认后按步骤执行,并在过程中审查结果
- 结果总结:在完成时提供全面的结果摘要
3.2 适用场景
最佳实践:
- 多步骤或复杂的数据分析任务
- 需要透明度和控制的工作流程
- 涉及多个数据源和分析方法的综合项目
- 需要详细文档记录的分析过程
产品设计评价:
Planner 模式体现了产品在透明度与自动化之间的精妙平衡。通过事前规划、过程确认和结果审查的多层次设计,既保持了 Agent 的智能化优势,又给予用户充分的控制权。这种设计特别适合企业级应用场景,满足了对可审计性和可控性的严格要求。
4. Notebook 管理与组织
4.1 自动化 Notebook 管理
功能特性:
- 创建新的 Notebook 单元以总结分析结果
- 自动生成代码注释和文档
- 建议 Notebook 命名和组织结构
- 优化 Notebook 的可读性和可维护性
4.2 协作与分享
支持功能:
- 生成面向不同技术水平受众的总结
- 创建可重现的分析流程
- 提供清晰的方法论说明
5. 企业级特性
5.1 数据治理与安全
核心优势:
- 基于 Unity Catalog 的统一数据治理
- 遵循企业数据访问策略和权限控制
- 保持数据血缘关系和审计跟踪
- 确保分析结果的可信度和合规性
5.2 上下文感知能力
智能特性:
- 理解组织数据的语义和业务逻辑
- 适应团队的工作方式和偏好
- 利用历史分析模式和最佳实践
- 提供个性化的建议和优化方案
6. 使用场景总结表格
| 使用场景类别 | 核心功能 | 典型应用 | 预期收益 |
|---|---|---|---|
| 数据探索与发现 | 自动 EDA、数据结构分析、Unity Catalog 搜索 | 新数据集快速理解、数据质量评估 | 将数小时的探索工作压缩为数分钟 |
| 机器学习开发 | 端到端 ML 流程、MLflow 集成、超参数调优 | 预测模型构建、分类任务、时间序列分析 | 加速模型开发周期,提高模型质量 |
| Planner 模式 | 多步骤规划、需求澄清、透明执行 | 复杂分析项目、跨部门协作任务 | 提高工作流程透明度和可控性 |
| 错误诊断修复 | 智能错误分析、迭代修复、解决方案建议 | 代码调试、数据管道修复 | 减少调试时间,提高代码质量 |
| 结果总结解释 | 自动报告生成、多受众适配、洞察提取 | 分析结果展示、业务汇报 | 提高沟通效率,增强决策支持 |
| Notebook 管理 | 自动组织、命名建议、文档生成 | 项目管理、知识沉淀 | 改善代码可维护性和团队协作 |
7. 开始使用
7.1 启用步骤
- 管理员配置:工作区管理员从 Databricks 预览门户启用 Assistant agent 模式 beta
- 模式切换:在 Assistant 右下角找到切换开关,切换到 Agent 模式
- 任务输入:输入您的任务描述,让 Agent 从开始到完成全程处理
- Planner 使用:对于多步骤或复杂请求,建议启用 Planner 以获得更好的透明度和控制
7.2 工具确认机制
用户控制权:
用户始终保持主导地位。在运行代码之前,Agent 会请求您的批准。您可以选择:
- 允许一次:批准单次执行
- 在此线程中始终允许:在当前 Assistant 对话中简化工作流程(按右上角的”+”重置)
- 始终允许:给予批准直到您更改设置
安全保障:
Agent 具有内置防护措施,有助于减少意外操作,例如意外删除表。但我们仍建议仔细审查生成的代码,特别是涉及生产数据、重要表或其他敏感操作时。
7.3 最佳实践建议
提示优化:
- 提供详细的任务描述和期望结果
- 使用
@表名语法明确指定数据源 - 为表和列添加描述性注释以提高 Agent 效果
- 在复杂任务中逐步引导和反馈
工作流程:
- 从简单任务开始熟悉 Agent 能力
- 利用 Planner 模式处理复杂分析项目
- 定期审查和验证 Agent 生成的结果
- 建立团队使用规范和最佳实践
8. 未来发展方向
8.1 即将推出的改进
Databricks 正在投资以下几个改进方向,使 Data Science Agent 更加强大:
更广泛的上下文:
- 通过 MCP 集成引入额外上下文
- 为 Assistant 提供当前不具备的新知识
更智能的记忆:
- Assistant 指令已被 Data Science Agent 使用
- 使 Agent 更容易更新和管理您的指令
更快的数据发现:
- Data Science Agent 可以帮助您找到任务所需的资产
- 目前已具备搜索表和代码的能力
- 正在改进这一领域的功能
8.2 长期愿景
Data Science Agent 只是开始。Agent 模式将发展为编排整个 Databricks 工作负载。Databricks 正在构建数据工程及其他领域的 Agent 工作流程,全部由相同的可信、受治理的基础提供支持。
本文档基于 Databricks 官方博客文章整理,旨在为数据科学团队提供 Data Science Agent 的全面使用指南。