您可以使用智能诊断功能对任务进行全链路分析,当任务运行不符合预期时,您可以使用该功能快速定位问题。

功能概述

智能诊断功能可以基于以下维度对任务进行诊断分析:
  • 全链路分析
    • 检查上游任务运行情况:上游任务运行失败时,将阻塞当前任务得运行。智能诊断功能可以帮助您迅速定位上游任务运行失败的原因。
    • 检查是否已到达任务设置的定时运行时间。
      说明 在数据开发模块中定义任务的调度属性时,需要为设置任务在调度环境中的预期运行时间,但任务实际运行时间可能由于上游任务运行失败等问题导致任务实际执行时间晚于任务定时时间。
    • 检查调度资源使用情况:您可以查看资源的使用情况及任务等待资源时占用该资源的任务列表。
    • 检查任务执行情况:您可以查看任务的执行日志、已关联的数据质量规则执行详情、任务的代码详情及诊断建议等信息。
    说明
    • 调度任务运行需要满足的条件包括:上游任务运行成功、当前任务定时时间已到、调度资源充足、当前任务未运行等。详情请参见:任务运行条件
    • 如果上游任务为未运行状态且上游依赖层级较深时,建议您先通过DAG面板中的上游分析功能,快速定位阻塞当前任务运行的关键上游任务,再通过智能诊断功能,诊断该关键任务未运行的原因,提升运维效率。
  • 基本信息:支持您查看当前任务运行的关键时间点。
  • 影响的基线:支持您查看将当前任务纳入监控范围的基线列表及基线运行情况。智能基线详情请参见:智能基线概述
  • 历史实例运行情况:支持您通过可视化图表和列表方式查看当前任务近15天内的执行情况。

使用限制

仅DataWorks专业版及以上版本,支持使用运行诊断功能。您目前可以免费体验,但建议您升级到专业版以获取更多产品能力。版本升级详情请参见:DataWorks各版本详解

进入智能诊断

  1. 进入运维中心。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间操作列的更多图标,选择运维中心
  2. 进入运维中心后,您可以通过以下两种方式进入智能诊断页面。
    • 方法一:在左侧导航栏,单击周期任务运维手动任务运维,选择周期实例补数据实例测试实例手动实例,通过以下方式进入相应实例的智能诊断页面。
      • 单击相应实例前的状态图标,进入实例的智能诊断页面。状态图标
      • 在实例列表模式下,单击相应实例操作列的去诊断。如果当前页面非列表模式,您可单击页面中间的箭头图标返回列表模式。
      • 在DAG模式下,右键单击相应实例的DAG图,选择菜单中的运行诊断。如果当前页面非DAG图模式,您可单击相应实例操作列的DAG图,打开实例的DAG图。
      • 在DAG模式下,单击相应实例的DAG图,在右下角的弹框中,单击任务状态右侧的去诊断
    • 方法二:在左侧导航栏,单击智能诊断进入智能诊断页面。
      说明 智能诊断只支持通过实例ID定位具体实例,您可通过实例详情页获取实例ID。

全链路诊断

DataWorks根据任务运行的必要条件,将依次检查上游任务的运行状态、当前任务设置的定时时间、调度资源的使用情况、当前任务的执行情况:
  • 上游依赖
    智能诊断的上游依赖页面,为您展示当前任务的上游任务运行情况,如果上游任务未运行成功,将阻塞当前任务运行,您可以单击上游任务操作列的运行诊断,定位上游任务运行失败的原因。
    说明 如果上游任务为未运行状态且上游依赖层级较深时,建议您先通过DAG面板中的上游分析功能,快速定位阻塞当前任务运行的关键上游任务,再通过智能诊断功能,诊断该关键任务未运行的原因,提升运维效率。
    上游依赖
  • 定时检查
    定时检查将为您检查当前任务的定时时间是否已到。仅当上游依赖检查通过时,才会触发该检查。定时检查
  • 调度资源
    智能诊断的调度资源页面,为您展示资源使用趋势。如果当前任务该检查未通过,则表示当前任务运行时所使用的调度资源不足,任务将进入等待资源状态,直到占用该调度资源的任务执行结束,释放资源后,才会启动当前任务的运行。您可以根据资源使用趋势,合理安排任务的定时时间,以错峰运行。调度资源
    功能 描述
    调度资源信息 为您展示前任务所使用的调度资源组名称、正在该资源组上运行的任务数、该资源组上正在等待运行的任务数。
    说明 公共调度资源组:每天0点~9点是DataWorks的任务高峰期,公共调度资源紧张,可能出现任务等待资源的情况。 您可以错峰运行调度任务或者前往DataWorks控制台添加独享资源组或自定义资源组来缓解资源紧张的情况。
    资源使用趋势 为您展示当前调度资源组各时间段内的资源使用率,以及当前任务等待资源的耗时情况。
    占用资源的任务 为您展示当前任务等待资源的时间段内,占用该调度资源组的任务列表。
  • 任务执行
    任务执行为您展示当前任务的执行日志、已关联的数据质量规则执行详情及代码详情等信息,对于运行失败的任务,智能诊断功能会根据日志信息,为您提供智能诊断建议,帮助您快速获取任务的出错原因。任务运行
    注意 仅MaxCompute任务支持查看诊断信息MaxCompute作业列表。
    功能 描述
    诊断信息
    • 日志诊断:获取关键报错信息、报错原因并给出诊断建议。
    • 计算资源诊断:若任务长时间处于等待引擎执行资源的状态下,将在此处给出提示。
    日志 为您展示任务的详细执行过程。
    MaxCompute 为您展示MaxCompute作业列表及计算资源详情。
    说明
    • 一个DataWorks实例会分成若干个MaxCompute Instance依次执行。
    • 当任务满足运行条件后,DataWorks会根据任务类型将任务下发到对应的计算引擎上执行,当计算资源紧张时,可能会出现等待计算资源的情况,导致任务运行变慢。
    DQC 如果任务关联了数据质量规则,在任务运行时,将触发数据质量规则运行,您可在此处查看数据质量规则详细执行情况。
    代码详情 为您展示当前任务的代码详情。

基本信息

您可以在基本信息页面查看当前任务运行的关键时间点和基本信息,相关属性的详细介绍请参见:调度配置基本信息

影响基线

您可以在影响基线页面查看将当前任务纳入监控范围的基线列表及基线运行情况。智能基线详情请参见:智能基线概述影响基线

历史实例

您可以在历史实例页面查看如下信息:
  • 当前任务各维度指标的变化趋势:通过可视化图表方式为您展示当前任务近15天内运行耗时开始运行时间等待调度资源耗时的变化趋势。
  • 当前任务的历史实例运行情况:通过列表方式为您展示当前任务的历史实例运行详情,包括实例开始运行时间、结束时间、运行时长、等待资源耗时等。支持您单击操作列的运行诊断跳转至对应实例的诊断详情页面。
历史实例