查看运维大屏

运维大屏为您展示周期任务的运维稳定性评估、关键运维指标、调度资源使用概况,以及手动任务和数据集成同步任务的运行详情。这有助于您从宏观角度快速了解整个空间任务的总体情况,及时发现并处理异常任务,从而提升运维效率。

使用说明

运维大屏支持选择使用如下三种视角查看工作空间的周期任务运维手动任务运维数据集成任务运维概况

  • 指定项目:即查看所选工作空间的运维概况。该视角可查看工作空间的运维概览,也可单独查看数据集成同步任务的运维概况。

  • 全部项目:即查看当前账号下所有工作空间的运维概况。该视角无法单独查看数据集成同步任务的运维概况。

使用限制

  • 标准模式工作空间的开发环境不支持运维大屏功能。

    说明

    可在运维中心界面顶部菜单栏单击切换生产环境及开发环境。

  • 周期业务页签:仅统计周期任务及其实例的相关运维情况,不包括其他类型的任务和实例。

  • 手动业务页签:仅统计手动业务流程及其内部节点实例的相关运维情况。

  • 数据集成任务:仅统计数据集成离线同步和实时同步任务的相关运维情况。

进入运维大屏

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与运维 > 运维中心,在下拉框中选择对应工作空间后单击进入运维中心

查看周期任务运维信息

您可在周期任务页签,查看周期任务运维稳定性评估、重点关注、周期实例运维状态分布、周期实例完成情况、调度资源组使用情况等维度的运维概况。

运维稳定性评估

通过工作空间中任务的整体运行情况,为您工作空间的运维稳定性进行了状态评估。

项目空间

单个项目空间

我的所有空间

稳定性图示

image

image

稳定性说明

稳定性的健康程度分为优、良、中、差四个等级,当出现高危或低危标签时,表示工作空间的健康程度较差,需尽快处理优化。

  • 在页面上方切换至我的所有空间视角,可查看当前所有已加入的工作空间运维稳定性情况、周期实例数、及周期实例完成情况。

  • 您也可单击具体工作空间右侧操作栏中的查看详情,可前往查看单个项目运维稳定性情况。

查看重点关注

重点关注以智能基线及周期任务相关异常统计为维度,统计空间视角和个人视角下任务运维的异常事项。您可查看工作空间整体的异常问题情况,或仅查看您名下的异常问题(即您作为任务责任人的异常任务)概况,及时发现并治理,以免影响业务正常运行。

异常问题类型

异常问题说明

相关文档

图示

基线实例破线

统计今日破线的基线实例数量。

基线实例破线,即基线上的任务预计完成时间超过基线的承诺时间,未按指定时间运行完成导致触发报警。

基线实例

异常问题

基线实例预警

统计今日预警的基线实例数量。

预警余量能保障复杂依赖场景下重要数据在预期时间内顺利产出,超出预警余量,可能导致任务无法按时完成造成异常。

基线承诺时间及预警余量

运行出错事件

统计今日运行出错的事件数量。

当任务处于基线监控范围内,任务运行出错会产生出错事件。当前任务运行出错,可能会阻塞其相关下游任务运行,您需及时处理出错任务,以免影响下游任务正常运行。

事件管理

运行变慢事件

统计今日运行变慢的事件数量。

当任务处于基线监控范围内,任务运行变慢会产生变慢事件。运行变慢即任务本次运行时间相比过去一段时间内的平均运行时间明显变长。

任务被孤立

统计周期任务中没有上游依赖的周期任务个数。

当节点没有上游依赖时,该节点会变为孤立节点,将无法再自动调度运行。

孤立节点

任务被冻结

统计冻结(暂停)状态的周期任务个数。

周期任务冻结后,该周期任务产生的实例也将是冻结状态,冻结状态的实例将不会运行,并且会阻塞其下游节点执行。

任务冻结与解冻

任务过期

统计调度生效日期已过的周期任务个数。

节点在调度生效日期内将自动产生周期实例并运行,调度生效日期范围外将无法产生周期实例并自动调度。

任务被修改

今日修改的周期调度任务个数。

  • 修改操作:包括代码变更、调度配置变更、节点状态变更及节点责任人变更等。

  • 统计范围:包括在数据开发(DataStudio)变更后,通过任务发布流程变更的生产任务操作,以及直接在生产环境执行的周期任务变更操作。

说明

当切换至我的视角时,则统计的是您名下任务(即您为该任务的责任人)存在变更的节点数量。

周期实例及周期任务运维概况

周期实例及周期任务的相关运维概况如下表。

运维类别

说明

图示

周期实例运行状态分布

  • 统计范围:统计指定业务日期下,当前工作空间内的周期实例或您名下的调度实例的运行状态分布情况。统计的是页面请求发生时的数据。

  • 查看方式:单击饼图中的某个色块,即可查看相应状态的实例数量及占比。

  • 需重点关注的状态实例

    • 运行失败:实例运行失败,可能会阻塞其相关下游任务的运行。

    • 冻结:冻结状态的实例将不会运行,并且会阻塞其下游节点的执行。

    • 运行慢:指状态为运行中的实例,如果运行时间大于过去10天平均值15分钟的实例,会被判定为运行慢。如果历史实例数小于4,则运行时间大于半小时的实例会被视为运行慢。

说明

此处仅统计正常任务,不统计空跑和冻结状态的任务。

实例运行状态分布

周期实例完成情况

  • 统计范围:统计页面请求当天00:00~23:00内,当前工作空间中周期实例昨日、今日和历史平均的完成情况(即运行成功或未运行的实例个数及波动情况)。

  • 呈现方式:通过折线图展示昨日、今日和历史平均的完成情况。如果三条折线偏移过多,表示在某个时间段内存在异常情况,需进一步检查分析。

  • 任务类型:支持指定需要查看的任务类型。

  • 历史平均:此处的历史平均统计的是近10天的实例完成情况。

周期实例完成情况

周期实例与周期任务趋势

统计范围:统计某段业务日期范围内,生产环境的周期任务和周期实例的数量变化趋势。最多支持查看近一年的调度任务数量变化。

周期实例与周期任务趋势

周期任务分布情况

  • 统计范围:统计页面请求发生时,不同维度(节点类型、调度周期)的周期任务数量及占比。

  • 展示方式:饼图展示存在上限,若统计类型超过上限,会进行合并展示。

说明

我的所有空间视角下,支持按照工作空间查看周期任务分布情况。

任务分布情况

调度资源组使用情况

统计指定时间段内所选调度资源组的使用率(即运行在该资源组上的实例所占用资源的百分比)与各时间点运行在该资源组上的实例数量的变化趋势。

说明
  • 最多支持统计7天的数据。

  • 当资源组使用率超过80%时,建议对资源组进行扩容,以免资源不足,影响任务正常执行。

  • 资源组使用率与资源组上运行的实例数量的统计维度为资源组级别。例如,若您使用的独享调度资源组为多个工作空间共享,则此处统计的为多个工作空间下,该资源组总的资源使用率和实例数量变化趋势。

调度资源组使用情况

周期实例运行排行及出错排行

实例运行及出错排行

  • 昨日周期实例排行榜

    统计昨天运行时长、等资源时长和运行变慢时长的周期实例排行,目前仅展示Top30的任务。您可根据排行快速查找耗时较久的任务,并单击实例ID进入实例详情页,通过运行诊断查看当前实例的运行详情。

    说明

    变慢时长:即昨日该实例运行时长相比历史平均运行时长变慢多少,并按照差值降序排序。

  • 周期实例近一个月出错排行榜

    统计最近一个月的周期实例出错排行,目前仅展示Top30的任务。您可快速定位近一个月出错率较高的任务,查看任务详情并定位出错原因。

查看手动任务运维信息

您可在手动任务页签,查看手动业务流程和内部任务实例的任务运行情况。

手动任务概览

统计从指定日期开始运行的手动业务流程和内部任务实例的总数及其运行成功的占比情况。

image

业务流程实例运行情况

运维类别

说明

图示

业务流程实例状态分布

使用饼图统计运行日期内,手工业务流程实例不同运行状态的分布情况。

  • 单击不同色块,即可跳转至相应状态任务的详情页,查看并处理问题任务。您需重点关注运行失败的任务。

  • 最多支持统计7天的数据。

  • 当切换至我的视角时,则统计的是您名下(即您为该任务的责任人)的手工业务流程实例的运行分布情况。

image

业务流程排行榜

统计指定运行日期运行时长、失败率高的业务流程。

  • 您可根据排行快速查找耗时较久或失败率高的业务流程,并单击任务ID进入手动业务流程实例详情页。在详情页中,通过查看业务流程DAG中具体实例的运行诊断,了解当前业务流程中的实例运行情况。

  • 目前仅展示Top30的业务流程。

image

内部任务实例运行情况

运维类别

说明

图示

内部任务分布

使用饼图实时统计当前运维中心内部任务实例的分布情况,按节点类型责任人维度进行分类。

image

内部任务排行榜

统计指定运行日期内运行时长、失败率高的内部任务实例。

  • 您可根据排行快速查找耗时较久或失败率高的内部任务实例,并单击任务ID进入手动业务流程实例详情页。在详情页中,通过查看业务流程DAG中具体实例的运行诊断,了解当前实例的运行情况。

  • 目前仅展示Top30的内部任务。

image

查看数据集成任务运维信息

您可在数据集成页签,查看昨天今天数据集成同步任务的相关概况及资源组的使用情况。

数据集成资源组使用情况

统计当前工作空间下所有数据集成任务使用的资源详情,包括运行任务数资源使用率到期时间等。根据资源组使用率及任务量,判断是否需要对资源进行扩缩容等操作,合理分配资源。独享数据集成资源组使用情况

说明
  • 独享数据集成资源组的相关操作,详情请参见独享数据集成资源组

  • Serverless资源组的相关操作,详情请参见使用Serverless资源组

  • 运维大屏 > 数据集成仅统计对独享数据集成资源组的相关运维情况。

数据集成同步任务运行状态分布

使用饼图统计当前工作空间下,同步任务不同运行状态的分布情况。单击不同色块,即可跳转至相应状态任务的详情页,查看并处理问题任务。您需重点关注异常运行失败的任务,该类任务通常会阻塞下游任务执行。运行状态分布

离线同步任务运行情况

离线同步任务运行情况介绍如下表。

运维类别

说明

图示

数据同步进度

统计所选业务日期内离线同步的数据总量及总的流量使用情况。

数据同步速度

数据同步量统计

根据数据源类型展示所选业务日期内,同步数据量的拉取和写入曲线,快速查看同步数据量较大的引擎任务,后续可考虑向该类引擎任务进行资源倾斜。

离线数据同步任务数据统计量

最新榜单 Top10

统计最近10最新失败实例最新成功实例,以便您全局查看最新的同步任务状态。您可根据报错信息,快速定位实例运行失败的原因并处理。

离线任务同步榜单

数据同步任务执行详情

支持通过提交时间任务状态任务名称等条件筛选,快速搜索任务实例,查看该实例的运行详情。

离线同步任务详情

实时同步任务运行情况

实时同步任务运行情况介绍如下表。

运维类别

说明

图示

数据同步概览

统计当前工作空间下,所有实时同步任务的数据速度和记录速度的总和。

同步速度

任务延迟 Top10

统计存在延迟最高的10个实时同步任务,以便快速定位高延迟任务并及时优化。

任务延迟

报警信息

统计最近时间实时同步任务运行产生的报警信息,以便您快速捕捉异常情况并及时解决。

报警信息

Failover信息

统计实时同步任务在指定时间内的Failover消息,以便总览任务Failover的状态。Failover详情请参见实时同步任务运行与管理

failover