DataWorks AI运维是一项由DataWorks Copilot驱动的运维能力,旨在为任务实例提供全面的健康评估与问题定位。通过融合依赖链路、资源水位、历史运行趋势、变更影响、日志异常及数据质量等多维度分析,自动生成结构化的诊断报告。报告不仅能快速揭示问题根源,还提供具体解决方案和一键执行的快捷运维操作,旨在帮助用户从被动响应故障转变为主动发现和预防问题,显著提升运维效率。
功能介绍
AI运维是DataWorks提供的一站式、智能化的任务运维工具。是原智能运维功能的升级版本。当遇到任务失败、运行变慢、等待资源等问题时,DataWorks AI运维能够自动分析任务的全生命周期,快速定位问题根因,并提供解决方案和一键式运维操作。
核心能力:
-
全景诊断:覆盖任务从未运行、等待、运行中到成功/失败的每一种状态。诊断范围支持从单个实例、工作流到整个项目空间,通过综合分析依赖关系、资源使用、历史性能及日志内容,给出全面的诊断结论,并支持上下文追问。
-
根因分析:不仅呈现错误日志,更通过多维信息关联分析,深入定位问题的根本原因。
-
交互式运维:支持在对话框中直接下达运维指令(如重跑、置成功、修改资源组等),并将复杂操作简化为一键式按钮,显著提升运维效率。
快速入门
本节将通过一个排查“实例运行失败”的典型场景,引导您完成一次完整的智能运维流程。
-
发起诊断
-
进入,找到运行失败的目标实例。
-
点击实例名称,展开该实例的DAG图片,将鼠标悬停在该实例上,在弹出的快捷操作栏中,点击AI诊断按钮。
DAG图中,运行失败的节点(如ods_user_info_d)以红色×图标和红色边框标识,其下游节点显示为未运行状态。AI诊断按钮位于失败节点与上游节点之间的连线旁。
-
-
等待AI分析
点击后,页面右侧将自动唤起 DataWorks Copilot 助手,并显示“DataWorks Copilot 正在处理中...”。在等待结果时,Copilot会显示其正在执行的分析步骤。这有助于您理解AI的“思考”过程。以下是一个典型的诊断分析流程,您可以展开任意一项查看详细信息
分析流程依次执行查询任务实例状态和信息、查询工作流的内部节点、分析失败实例日志、分析诊断、查询任务实例日志、查询任务发布变更、查询实例操作记录、查询实例代码等步骤,全部完成后显示DataWorks Copilot已执行完成!。
展开分析诊断步骤后,Copilot 将呈现详细的诊断结果,包括【问题分析】、【可能原因】和【解决建议】三部分。例如,当任务因独享资源组过期而失败时,【问题分析】指出错误信息为
com.alibaba.phoenix.error.BillException,表明计费检查未通过;【可能原因】列出资源组付费周期结束未续费、配置错误或被误删、账户欠费或权限变更等;【解决建议】指导您前往资源组管理页面确认资源组状态并续费,或在任务调度配置中临时切换至其他可用资源组。 -
解读诊断报告
十几秒后,Copilot会返回一份结构化的诊断报告。您应重点关注以下部分:
-
异常发现:通过全方位分析,发现实例的异常,并根据上下文推导问题产生的根本原因,是您首先需要关注的结论。
-
分析过程:详细列出了AI得出结论的证据链,增加了结果的可信度。
-
解决和预防建议:提供了具体、可操作的修复步骤和避免问题复发的长期建议。
异常发现 • 根本原因: 任务执行失败是因为所使用的独享资源组(ID: 70b78c03-d6b9-4234-bde9-e0da1e6e8c33)已经过期。系统在尝试启动任务时检测到该资源组不可用,因此抛出了 BillException 异常并中断了任务执行。 分析过程 1. 初步状态检查: • 调用 get_task_instance 发现实例状态为"运行失败"。 2. 日志分析: • 使用 analyze_task_instance_log 和 get_task_instance_log 查看详细的错误日志,确认失败原因为"独享资源组已过期"。 3. 变更与操作记录核查: • 通过 list_task_changes 发现最近一次变更是在 2026-02-01,内容为更新任务本身。 • list_task_operations 显示该任务曾于 2026-02-01 修改过资源组(从 yunshi_dataxcdc_pre_resource 更换为 dgc_checker_test_rescource_dlf),但未彻底解决问题。 4. 代码审查: • 检查任务代码(get_task_instance_code)显示这是一个标准的 PyODPS 数据写入脚本,未发现明显逻辑错误或不当资源请求。 -
-
执行解决方案
根据报告提供的建议进行操作。
-
立即措施:报告通常会提供与问题直接相关的快捷操作。例如,对于资源组问题,可能会提供修改任务资源组的快捷方式,您可以直接回答:
需要,由AI协助进行修改资源组。Copilot 回复的解决和预防建议包含立即措施(前往独享资源组管理页面查看资源组状态,续费恢复服务或将任务重新分配到有效资源组)和长期优化(建立资源组有效期监控机制,定期审核任务依赖的资源组配置)两部分。
Copilot 将弹出修改实例资源组确认表单,自动填充环境、任务实例id列表、工作空间、资源组及是否是业务流程实例等参数,确认信息无误后单击确认并执行即可完成修改。
-
交互式操作:如报告未提供具体操作,您也可以在对话框中继续输入指令来解决问题,例如输入“修改任务xxx的资源组”,Copilot会引导您完成操作。通过自然语言交互,AI能动态理解复杂上下文需求,降低操作门槛,适合非结构化运维场景。
Copilot将自动查询任务实例状态,并展示确认表单,包含环境、任务实例id列表、工作空间、资源组、是否是业务流程实例等字段,确认信息无误后单击确认并执行完成操作。
-
不同的失败原因返回的报告结果和解决预防建议各不相同,以实际情况为准,当前运维Agent支持的操作参见支持的运维操作。
注意事项
-
项目级诊断或实例数较多时,响应可能延迟 1–5 分钟。
-
支持跨工作空间依赖分析,但用户需加入目标工作空间,才有权限查看分析细节。
启用AI诊断
DataWorks存在多个入口,可以使用AI运维。
全局入口(Copilot)
在DataWorks任意页面,打开右上角的Copilot对话框,切换Copilot至Agent,选择/数据运维。
可输入:诊断实例 [实例ID]或通过@<实例ID>获取上下文对目标发起诊断。
在全局入口中,需要使用/数据运维来声明需使用的Agent,但在场景化入口中无需声明,默认即使用运维Agent。
场景化入口
|
页面位置 |
操作方式 |
|
|
在运维中心,单击左侧导航栏的AI运维。 |
|
运维中心 > 实例列表 |
点击操作列,支持诊断周期实例、测试实例、补数据实例。 |
|
运维中心 > DAG 图 |
悬停节点实例 → 点击hover的AI诊断 按钮。 |
|
实例运行日志页签 |
在日志诊断界面,点击顶部AI诊断按钮(自动唤起 Copilot 并提交诊断指令)。 |
|
日志诊断页 |
在页面中间的对话框中,启用AI诊断,输入实例 ID 或项目 ID,并进行诊断。 |
说明:原有的“智能诊断”按钮已更名为“日志诊断”,专注于对当前日志内容的分析。
支持的诊断场景
实例级问题
|
问题类型 |
诊断指令示例 |
|
任务失败 |
|
|
运行变慢 |
|
|
长时间等待 |
|
|
依赖阻塞 |
|
支持的运维操作
在诊断报告或 Copilot 对话中,您可以单独或批量对空间下的任务或实例执行以下操作:
AI对话框中执行的任何操作,均需要人为审核授权确认后才会执行。
|
操作 |
说明 |
|
重跑实例 |
重新运行当前实例 |
|
置成功 |
强制标记为成功 |
|
暂停/恢复实例 |
控制调度状态 |
|
修改资源组 |
切换资源组 |
|
修改优先级 |
调整调度优先级(影响基线调度) |
|
刷新实例 |
刷新实例的配置信息至最新内容 |
用户需具备目标工作空间的 项目管理员(Project Owner) 或 运维(O&M) 角色权限。