DataWorks AI运维是一项由DataWorks Copilot驱动的运维能力,旨在为任务实例提供全面的健康评估与问题定位。通过融合依赖链路、资源水位、历史运行趋势、变更影响、日志异常及数据质量等多维度分析,自动生成结构化的诊断报告。报告不仅能快速揭示问题根源,还提供具体解决方案和一键执行的快捷运维操作,旨在帮助用户从被动响应故障转变为主动发现和预防问题,显著提升运维效率。
功能介绍
AI运维是DataWorks提供的一站式、智能化的任务运维工具。是原智能运维功能的升级版本。当遇到任务失败、运行变慢、等待资源等问题时,DataWorks AI运维能够自动分析任务的全生命周期,快速定位问题根因,并提供解决方案和一键式运维操作。

核心能力:
全景诊断:覆盖任务从未运行、等待、运行中到成功/失败的每一种状态。诊断范围支持从单个实例、工作流到整个项目空间,通过综合分析依赖关系、资源使用、历史性能及日志内容,给出全面的诊断结论,并支持上下文追问。
根因分析:不仅呈现错误日志,更通过多维信息关联分析,深入定位问题的根本原因。
交互式运维:支持在对话框中直接下达运维指令(如重跑、置成功、修改资源组等),并将复杂操作简化为一键式按钮,显著提升运维效率。
快速入门
本节将通过一个排查“实例运行失败”的典型场景,引导您完成一次完整的智能运维流程。
发起诊断
进入,找到运行失败的目标实例。
点击实例名称,展开该实例的DAG图片,将鼠标悬停在该实例上,在弹出的快捷操作栏中,点击AI诊断按钮。

等待AI分析
点击后,页面右侧将自动唤起 DataWorks Copilot 助手,并显示“DataWorks Copilot 正在处理中...”。在等待结果时,Copilot会显示其正在执行的分析步骤。这有助于您理解AI的“思考”过程。以下是一个典型的诊断分析流程,您可以展开任意一项查看详细信息


解读诊断报告
十几秒后,Copilot会返回一份结构化的诊断报告。您应重点关注以下部分:
异常发现:通过全方位分析,发现实例的异常,并根据上下文推导问题产生的根本原因,是您首先需要关注的结论。
分析过程:详细列出了AI得出结论的证据链,增加了结果的可信度。
解决和预防建议:提供了具体、可操作的修复步骤和避免问题复发的长期建议。

执行解决方案
根据报告提供的建议进行操作。
立即措施:报告通常会提供与问题直接相关的快捷操作。例如,对于资源组问题,可能会提供修改任务资源组的快捷方式,如下图所示,您可以直接回答:
需要,由AI协助进行修改资源组。

交互式操作:如报告未提供具体操作,您也可以在对话框中继续输入指令来解决问题,例如输入“修改任务xxx的资源组”,Copilot会引导您完成操作。通过自然语言交互,AI能动态理解复杂上下文需求,降低操作门槛,适合非结构化运维场景。

不同的失败原因返回的报告结果和解决预防建议各不相同,以实际情况为准,当前运维Agent支持的操作参见支持的运维操作。
注意事项
项目级诊断或实例数较多时,响应可能延迟 1–5 分钟。
支持跨工作空间依赖分析,但用户需加入目标工作空间,才有权限查看分析细节。
启用AI诊断
DataWorks存在多个入口,可以使用AI运维。
全局入口(Copilot)
在DataWorks任意页面,打开右上角的Copilot对话框,切换Copilot至Agent,选择/数据运维:

可输入:诊断实例 [实例ID]或通过@<实例ID>获取上下文对目标发起诊断。
在全局入口中,需要使用/数据运维来声明需使用的Agent,但在场景化入口中无需声明,默认即使用运维Agent。
场景化入口
页面位置 | 操作方式 |
在运维中心,单击左侧导航栏的AI运维。 | |
运维中心 > 实例列表 | 点击操作列,支持诊断周期实例、测试实例、补数据实例。 |
运维中心 > DAG 图 | 悬停节点实例 → 点击hover的AI诊断 按钮。 |
实例运行日志页签 | 在日志诊断界面,点击顶部AI诊断按钮(自动唤起 Copilot 并提交诊断指令)。 |
日志诊断页 | 在页面中间的对话框中,启用AI诊断,输入实例 ID 或项目 ID,并进行诊断。 |
说明:原有的“智能诊断”按钮已更名为“日志诊断”,专注于对当前日志内容的分析。
支持的诊断场景
实例级问题
问题类型 | 诊断指令示例 |
任务失败 |
|
运行变慢 |
|
长时间等待 |
|
依赖阻塞 |
|
支持的运维操作
在诊断报告或 Copilot 对话中,您可以单独或批量对空间下的任务或实例执行以下操作:
AI对话框中执行的任何操作,均需要人为审核授权确认后才会执行。
操作 | 说明 |
重跑实例 | 重新运行当前实例 |
置成功 | 强制标记为成功 |
暂停/恢复实例 | 控制调度状态 |
修改资源组 | 切换资源组 |
修改优先级 | 调整调度优先级(影响基线调度) |
刷新实例 | 刷新实例的配置信息至最新内容 |
用户需具备目标工作空间的 项目管理员(Project Owner) 或 运维(O&M) 角色权限。


