运维中心概述

运维中心是一站式大数据运维监控平台,支持实时查看任务运行状态,提供智能诊断、重跑等运维操作,帮助您对异常任务进行基础运维;提供智能基线,帮助您解决重要任务产出时间不可控,海量任务监控难的问题,保障任务产出的时效性;提供引擎、资源、调度等多方位的运维能力。

运维中心功能模块

在数据开发中完成任务开发,提交并发布后,即可在运维中心对周期任务、手动任务以及实时任务进行生产任务运行、任务运行问题定位、任务运行状态监控、任务运维关键指标查看、引擎任务列表查看等运维操作。

image

注意事项

任务发布至生产环境后才会自动调度运行,开发环境内的任务不会自动调度运行。

进入运维中心

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 运维中心,在下拉框中选择对应工作空间后单击进入运维中心

任务运维

任务运维模块包含了周期任务运维、实时任务运维以及手动任务运维三种任务类型的运维,您可通过运维大屏查看任务运行的重要指标,并利用运维助手中的补数据、智能诊断、自动运维等功能对需要运维的任务进行多方面的运维操作。

模块

说明

环境支持情况

运维大屏

运维大屏以报表的形式为您展示调度任务的关键运维指标统计与数据集成离线同步与实时同步任务运维专页。

开发环境运维中心无此模块。

周期任务运维

周期任务

周期任务为您提供周期任务的DAG图、任务测试补数据等更多操作。

开发环境运维中心无法自动调度生成周期实例。

周期实例

周期实例为您展示周期任务提交至调度系统后生成的实例列表,在列表内可进行实例的DAG图运行诊断重跑周期实例等更多操作。

执行测试并查看测试实例

测试实例列表为您展示周期任务执行测试操作后生成的测试实例,您可以查看测试实例的执行情况,在列表内可查看实例的DAG图运行诊断重跑实例等更多操作。

实时任务运维

实时计算任务

实时计算任务页面方便您对实时计算任务进行启动停止下线操作,以及设置监控报警,保证在任务运行异常时及时发现并处理异常。

-

实时同步任务

实时同步任务页面方便您对实时同步任务进行启动停止下线修改负责人的操作,以及设置监控报警,保证在任务运行异常时及时发现并处理异常。

-

手动任务运维

手动任务

在手动任务中您可以对手动任务进行查询、DAG图查看、手动运行查看实例以及更多操作。

-

手动实例

在手动实例中您可以通过DAG图的方式,快速查看实例的详细信息并执行查看运行日志运行诊断查看代码查看血缘等一系列相关操作。

-

运维助手

补数据

补数据页面为您提供了对补数据任务进行管理操作。

-

智能诊断

智能诊断为您提供了对任务进行全链路分析的能力,您可以使用该功能快速定位问题所在。可查看任务的运行详情基本信息影响基线以及历史实例

开发环境运维中心无此模块。

自动运维

自动运维为您提供了自定义的运维规则,您可以实现对运行在目标资源组上的实例定制监控指标与自定义运维规则,在触发规则后,将会触发运维动作,达成自动运维目的。

-

说明

以周期实例中的任务为例,任务开始运行前需满足以下条件:

  • 依赖的所有父节点实例状态都为成功状态。

  • 已到达任务节点设置的任务定时运行时间。

  • 调度资源充足。

  • 本任务不是冻结状态。

运维中心中,不同的实例颜色代表实例处于不同的状态中,实例运行状态示意详情可参考:附录:实例运行状态与运行诊断

任务监控

任务监控模块包含了智能基线、监控报警功能,您可以通过配置智能基线功能来获取任务异常情况并进行预警,以及配置管理规则、报警信息以及值班表,实现对运维报警的及时处理等操作。

模块

描述

环境支持情况

智能基线

智能基线能够及时捕捉导致基线上的任务无法按时完成的异常情况并提前预警,重要数据能在预期时间内顺利产出,帮助您降低配置成本避免无效报警自动监控所有重要任务

开发环境运维中心无此模块。

监控报警

规则管理

规则管理为您提供了自定义监控规则的配置,您可以通过监控规则来监控任务运行状态或资源使用情况,方便您及时发现任务异常并处理异常。

报警信息

报警信息功能提供了统一管理任务监控模块产生的所有报警信息。其中包括智能基线产生的基线预警信息事件报警信息自定义规则报警信息以及全局规则报警产生的报警信息。

值班表

值班表为您提供了处理运维报警的排班情况,能确保出现报警或实例需要维护时可及时响应。配置好值班表后,DataWorks将报警信息发送给对应的值班人员,以便值班人员及时发现并处理问题。

其他运维

DataWorks除了为您提供了任务运维和智能监控外,还为您提供了对计算引擎(E-MapReduce)详情的查看,对资源组使用情况的监控运维,以及自定义调度参数,为您的日常运维与工作提供更便利、更丰富运维操作。

模块

描述

环境支持情况

引擎运维

引擎运维为您提供了对计算引擎(E-MapReduce)作业的详细信息进行查看,及时查找并清理运行有误的作业,避免该类作业阻塞下游任务,影响实例任务正常运行。

开发环境运维中心无此模块。

资源运维

资源运维通过可视化的方式为您展示资源组使用情况及实例任务执行情况,实现资源组及实例任务的智能监控和自动化运维,减少繁杂的人工操作,提高运维管理效率。

-

调度设置

调度设置为您提供了对调度日历工作空间参数进行新建并管理的平台更方便您自定义任务调度的方式。

-

附录:实例运行状态与运行诊断

运维中心按照不同的颜色标识来辨识任务正处于运行流程中的哪个阶段,不同的实例颜色与标识代表实例处于不同的状态。不同的实例颜色与标识所对应的任务状态如下所示。关于任务运行必要条件详情请参见:任务运行诊断

序号

状态类型

状态标识

运行流程图

1

运行成功状态

运行成功

运行流程图

2

未运行状态

未运行

3

运行失败状态

运行失败

4

正在运行状态

正在运行

5

等待状态

等待状态

6

暂停/冻结状态

暂停冻结状态