运维大屏展示当前您需要重点关注的运维指标、任务整体运行情况、调度资源变化趋势等运维概览,以及离线同步、实时同步任务的运行状态分布、数据同步进度等数据集成信息,帮助您提升任务运维效率。

进入运维大屏

  1. 登录DataWorks控制台
  2. 在左侧导航栏,单击工作空间列表
  3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  4. 单击左上方的图标图标,选择全部产品 > 任务运维 > 运维中心(工作流),默认进入运维大屏 > 运维概览页面。

查看运维概览

目前运维概览页面的统计范围是周期任务或周期实例,不包括其它类型的任务和实例。您可以在运维大屏页面查看以下内容:
  • 重点关注区域展示以下内容:
    • 您当前需要重点关注的业务日期为T-1的周期实例,包括失败实例运行慢实例等资源实例。同时满足以下条件的实例即为运行慢实例
      • 实例处于运行中的状态。
      • 实例运行超过30分钟。
      • 实例的运行时长与过去10天的平均运行时长相比,已经超过15分钟及以上。
    • 您当前需要重点关注的孤立节点暂停节点过期节点
      • 当节点没有上游依赖时,该节点会变为孤立节点,无法触发运行。例如,修改父节点输出名称后,造成依赖丢失。
      • 暂停节点运行后,该节点不再生成实例且无法完成周期调度。
      • 当节点的调度生效日期已过,将变为过期节点。

    重点关注统计的是页面请求发生时的数据。您可以单击某个指标进入相应的节点或实例列表,及时关注相关指标并进行治理,以避免影响业务。

  • 运行状态分布区域展示当前所有业务日期为T-1的正常调度实例的运行状态分布,统计的是页面请求发生时的数据。您可以单击饼图中的某个色块,进入相应状态的实例列表。运行状态分布
  • 任务完成情况区域展示页面请求当天00:00~23:00内,当前工作空间中周期实例的完成情况。您可以查看昨日、今日和历史平均的运行成功或未运行的任务,并可以指定需要查看的任务类型。任务类型
    对比正常周期性调度昨日、今日和历史平均的任务完成情况,统计出折线图。如果三条折线偏移过多,表示在某个时间段内有异常情况,您需要进一步检查与分析。
    说明 由于运维中心统计方法的变更(仅统计生产环境的实例),今日任务完成情况折线会产生明显波动。
  • 调度资源分配区域展示在过去24小时内,调度资源组使用率的变化趋势,以及运行中的周期实例数量的变化趋势。您可以单击右上方的资源组选择下拉列表切换资源组。调度资源分配
    实例数量为当前工作空间下的实例数量,资源组使用率为整个地域下的资源组使用率。
    说明 资源组使用率不记录数据集成任务占用的资源。
  • 运行时长排行区域展示运行时长、等待资源时长和运行变慢时长的排行。该区域每日更新数据,对运行在前一天,且运行成功的实例的运行时长进行排行。运行时长排行
  • 近一个月出错排行区域每日更新数据,统计最近一个月的任务出错排行,为您展示任务出错次数最多的前10个节点。您可以查看节点ID节点名称出错次数出错排行
  • 调度任务数量趋势区域每日更新数据,展示在一段时间内,生产环境的周期任务、周期实例的数量变化趋势。您最多可以查看近一年的调度任务数量变化。调度任务趋势
  • 任务类型分布区域展示页面请求发生时,各种类型的任务数量。饼图最多支持展示8种任务类型,如果统计的任务超过8种类型,会进行合并展示。任务类型分布

查看离线同步运维

运维大屏页面,单击数据集成,默认展示某个时间范围内离线同步的信息。您可以在右上方设置统计数据的时间范围时间范围
您可以查看离线同步任务的以下内容:
  • 运行状态分布区域展示所选业务日期内调度实例的运行状态分布,统计的是页面请求发生时的数据。您可以单击饼图中的某个色块,进入相应状态的实例列表。状态分布
  • 数据同步进度区域展示所选业务日期内离线同步的数据量,包括总数据量公网总流量记录总量数据同步进度
  • 同步数据量统计区域根据数据源类型展示所选业务日期内,同步数据量的拉取和写入曲线。曲线
  • 最新榜单Top10区域分别展示10个最新失败实例最新成功实例,以便您全局查看最新的同步任务状态。
  • 同步任务执行详情区域支持通过筛选提交时间任务状态任务名称等条件,快速搜素任务实例,并可以单击实例ID,查看该实例的运行详情。详情

查看实时同步运维

运维大屏 > 数据集成页面,单击实时同步,查看实时同步任务的以下内容:
  • 运行状态分布区域展示当前实时同步实例的运行状态分布,统计的是页面请求发生时的数据。您可以单击饼图中的某个色块,进入相应状态的实例列表。分布
  • 概览区域展示当前工作空间下,所有实时任务的数据速度和记录速度的总和。概览
  • 任务延迟Top10区域展示延迟最高的10个任务,以便您迅速定位高延迟任务。延迟
  • 任务报警信息区域展示最近的报警信息,以便您快速查看异常情况。任务报警
  • Failover信息区域展示指定时间内的Failover消息,以便总览任务Failover的状态。Failover