AI运维

更新时间:
复制为 MD 格式

DataWorks AI运维是一项由DataWorks Copilot驱动的运维能力,旨在为任务实例提供全面的健康评估与问题定位。通过融合依赖链路、资源水位、历史运行趋势、变更影响、日志异常及数据质量等多维度分析,自动生成结构化的诊断报告。报告不仅能快速揭示问题根源,还提供具体解决方案和一键执行的快捷运维操作,旨在帮助用户从被动响应故障转变为主动发现和预防问题,显著提升运维效率。

功能介绍

AI运维是DataWorks提供的一站式、智能化的任务运维工具。是原智能运维功能的升级版本。当遇到任务失败、运行变慢、等待资源等问题时,DataWorks AI运维能够自动分析任务的全生命周期,快速定位问题根因,并提供解决方案和一键式运维操作。

image

核心能力

  • 全景诊断:覆盖任务从未运行、等待、运行中到成功/失败的每一种状态。诊断范围支持从单个实例、工作流到整个项目空间,通过综合分析依赖关系、资源使用、历史性能及日志内容,给出全面的诊断结论,并支持上下文追问。

  • 根因分析:不仅呈现错误日志,更通过多维信息关联分析,深入定位问题的根本原因。

  • 交互式运维:支持在对话框中直接下达运维指令(如重跑、置成功、修改资源组等),并将复杂操作简化为一键式按钮,显著提升运维效率。

快速入门

本节将通过一个排查“实例运行失败”的典型场景,引导您完成一次完整的智能运维流程。

  1. 发起诊断

    1. 进入运维中心 > 周期实例,找到运行失败的目标实例。

    2. 点击实例名称,展开该实例的DAG图片,将鼠标悬停在该实例上,在弹出的快捷操作栏中,点击AI诊断按钮。

      image

  2. 等待AI分析

    点击后,页面右侧将自动唤起 DataWorks Copilot 助手,并显示“DataWorks Copilot 正在处理中...”。在等待结果时,Copilot会显示其正在执行的分析步骤。这有助于您理解AI的“思考”过程。以下是一个典型的诊断分析流程,您可以展开任意一项查看详细信息

    image

    image

  3. 解读诊断报告

    十几秒后,Copilot会返回一份结构化的诊断报告。您应重点关注以下部分:

    • 异常发现:通过全方位分析,发现实例的异常,并根据上下文推导问题产生的根本原因,是您首先需要关注的结论。

    • 分析过程:详细列出了AI得出结论的证据链,增加了结果的可信度。

    • 解决和预防建议:提供了具体、可操作的修复步骤和避免问题复发的长期建议。

    image

  4. 执行解决方案

    根据报告提供的建议进行操作。

    • 立即措施:报告通常会提供与问题直接相关的快捷操作。例如,对于资源组问题,可能会提供修改任务资源组的快捷方式,如下图所示,您可以直接回答:需要,由AI协助进行修改资源组。

      image

      image

    • 交互式操作:如报告未提供具体操作,您也可以在对话框中继续输入指令来解决问题,例如输入“修改任务xxx的资源组”,Copilot会引导您完成操作。通过自然语言交互,AI能动态理解复杂上下文需求,降低操作门槛,适合非结构化运维场景。

      image

说明

不同的失败原因返回的报告结果和解决预防建议各不相同,以实际情况为准,当前运维Agent支持的操作参见支持的运维操作

注意事项

  • 项目级诊断或实例数较多时,响应可能延迟 1–5 分钟。

  • 支持跨工作空间依赖分析,但用户需加入目标工作空间,才有权限查看分析细节。

启用AI诊断

DataWorks存在多个入口,可以使用AI运维。

全局入口(Copilot)

DataWorks任意页面,打开右上角的Copilot对话框,切换CopilotAgent,选择/数据运维

image

可输入:诊断实例 [实例ID]或通过@<实例ID>获取上下文对目标发起诊断。

说明

在全局入口中,需要使用/数据运维来声明需使用的Agent,但在场景化入口中无需声明,默认即使用运维Agent。

场景化入口

页面位置

操作方式

运维中心 > AI运维

在运维中心,单击左侧导航栏的AI运维。

运维中心 > 实例列表

点击操作列更多 > AI诊断,支持诊断周期实例、测试实例、补数据实例。

运维中心 > DAG 图

悬停节点实例 → 点击hoverAI诊断 按钮。

实例运行日志页签

在日志诊断界面,点击顶部AI诊断按钮(自动唤起 Copilot 并提交诊断指令)。

日志诊断页

在页面中间的对话框中,启用AI诊断,输入实例 ID 或项目 ID,并进行诊断。

说明:原有的“智能诊断”按钮已更名为“日志诊断”,专注于对当前日志内容的分析。

支持的诊断场景

实例级问题

问题类型

诊断指令示例

任务失败

诊断实例: <实例ID>或通过@<实例ID>获取上下文。

运行变慢

为什么实例 <实例ID> 今天变慢了?

长时间等待

查看实例 <实例ID> 为什么一直在等待

依赖阻塞

查看实例 <实例ID> 失败的父节点有哪些

支持的运维操作

在诊断报告或 Copilot 对话中,您可以单独或批量对空间下的任务或实例执行以下操作:

重要

AI对话框中执行的任何操作,均需要人为审核授权确认后才会执行。

操作

说明

重跑实例

重新运行当前实例

置成功

强制标记为成功

暂停/恢复实例

控制调度状态

修改资源组

切换资源组

修改优先级

调整调度优先级(影响基线调度)

刷新实例

刷新实例的配置信息至最新内容

用户需具备目标工作空间的 项目管理员(Project Owner) 或 运维(O&M) 角色权限。