自动运维

自动运维是DataWorks为保障系统持续稳定运行而提供的高级功能。用户可以将过往处理数据故障的应急经验,配置为自动运维规则。当满足规则触发条件时,系统将自动执行运维操作,提升服务稳定性和运维效率,并降低夜间运维频率。

背景信息

DataWorks的自动运维功能支持自动终止运行实例自动重跑

  • 自动终止运行实例

    当运行在独享调度资源组上的任务触发了资源组的自定义监控报警时,使用自动运维规则对资源组上的部分实例执行自动终止运行的操作。例如:当独享调度资源组的资源利用率达到80%并且持续10分钟,则自动终止运行在该资源组上优先级为1、3的非周期调度实例执行。

  • 自动重跑

    当任务状态为失败,且任务本身未设置失败自动重跑的情况下;或者任务因执行超时导致失败时,按照自动运维的自动重跑规则重跑任务。

使用限制

  • 权限限制:仅支持阿里云主账号、拥有AliyunDataWorksFullAccess权限RAM账号和空间管理员管理自动运维规则。

  • 资源组限制

  • 功能限制

    • 自动终止运行实例类型的自动运维规则,多个运维规则支持关联同一条监控规则。

    • 新建自动重跑规则实例类型的自动运维规则,一个空间仅支持创建一条。

    • 目前仅支持查看30天内的自动运维规则执行记录。

进入自动运维

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与运维 > 运维中心,在下拉框中选择对应工作空间后单击进入运维中心

  2. 在左侧导航栏,选择运维助手 > 自动运维,进入自动运维页面。

新建规则

自动运维 > 规则管理页面,可以创建终止运行实例自动重跑的自动运维规则。自动运维规则需要定义规则触发条件,DataWorks仅对满足过滤条件的任务执行自动运维操作。您可设置黑名单排除不需要执行运维操作的任务。同时,自动运维规则具体生效逻辑将受到您定义的约束规则限制。您可根据运维需求,创建并启用不同的自动运维规则。

新建终止运行实例规则

自动运维中可以对符合自定义规则的实例配置终止运行的自动运维操作,支持的实例包括周期实例补数据实例测试实例手动任务实例以及手动业务流程实例,终止运行实例规则的主要配置参数如下:

类别

参数

说明

触发条件

关联监控规则

选择需要关联的监控规则,在满足监控规则时,将会自动停止运行实例。

说明
  • 如需新建监控规则

  • 目前仅支持关联对象类型调度资源组触发条件资源组利用率的监控规则。

过滤条件

工作空间

选择该运维规则生效的工作空间。

实例类型

选择该运维规则对哪些类型的实例生效。

调度周期

选择该运维规则对哪些调度周期的实例生效。当实例类型选择周期实例补数据实例时,需要配置调度周期。

优先级

选择该运维规则对哪些优先级的实例生效,数值越大优先级越高。

状态

选择该运维规则对处于哪些状态的实例生效。

黑名单

配置即使触发规则也不需要执行自动运维操作的任务。如需添加,请在搜索框中输入任务名称或任务ID查询选择。

约束规则

生效时段

设置规则生效的起始时间和结束时间。在生效时段内,自动运维规则满足规则运行条件时,才会执行自动运维操作。非生效时段,即便满足自动运维规则触发条件,也不会执行自动运维操作。

最大生效次数

设置规则触发的最大次数,即最多执行多少次自动运维规则。

说明

每次执行自动运维规则前,都会检查是否还满足触发条件。如果不满足,将不会执行自动运维规则。

最小生效间隔

设置规则触发的最小时间间隔。

新建自动重跑规则

自动运维中可以对符合触发条件的任务配置自动重跑,会自动重跑的实例包括周期实例补数据实例测试实例手动任务实例手动业务流程实例

  • 当实例为周期实例时,自动重跑只会检查业务日期为昨天的实例。

    例如:若当前日期为202565日,只有业务日期为202564日的周期实例在满足自动重跑触发条件后,才会自动重跑实例。

  • 当实例为补数据实例测试实例手动任务实例手动业务流程实例时,自动重跑会检查实例创建日期为今天、昨天、前天的实例。

    例如:若当前日期为202565日,则65日、64日、63日创建的补数据实例、测试实例、手动任务实例和手动业务流程实例满足自动重跑触发条件后,将自动重跑实例。

自动重跑规则的主要配置参数如下:

类别

参数

说明

触发条件

运行状态

在满足如下条件且实例运行失败时,将自动重跑指定实例。

  • 任务因执行超时导致失败。

  • 数据开发节点调度配置中,未设置自动重跑的任务执行失败。

过滤条件

工作空间

选择该运维规则生效的工作空间。

实例类型

选择该运维规则对哪些类型的实例生效。

调度周期

选择该运维规则对哪些调度周期的实例生效。当实例类型选择周期实例补数据实例时,可配置调度周期。

优先级

选择该运维规则对哪些优先级的实例生效,数值越大优先级越高。

日志含关键字

选择日志关键字,当任务的日志中包含了此处选择的关键字时,会触发自动重跑规则。

当前支持选择abnormal exit(任务进程启动失败或异常退出)和out of memory(任务因运行内存不足导致失败退出)。

说明

仅运行在Serverless资源组上的任务日志包含out of memory关键字时可触发自动重跑规则。

黑名单

黑名单

配置即使触发规则也不需要执行自动运维操作的任务。如需添加,请在搜索框中输入任务名称或任务ID查询选择。

重跑操作

前置操作

如果您的任务是Serverless资源组计算型任务,可选择在重跑前增加计算型任务CU

说明

请合理配置每次重跑增加的CU,避免出现资源抢占而阻塞其他任务运行。

增加CU

在原任务执行消耗CU的基础上,添加指定CU运行本次重跑实例。增加的CU仅用于本实例的本次运行。

重跑次数

触发自动重跑时,最大重跑次数,取值范围1~10,单位:次。

重跑间隔

重跑间隔时间,取值范围3~30,单位:分钟。

约束规则

生效时段

设置规则生效的起始时间和结束时间。在生效时段内,自动运维规则满足规则运行条件时,才会执行自动运维操作。非生效时段,即便满足自动运维规则触发条件,也不会执行自动运维操作。

启用/停用规则

创建规则后默认立即生效,如需使规则停止生效,请单击目标规则所在行右侧的image,设置是否启用。

更多操作

管理规则

  • 如需查看规则信息,请在规则管理页面,单击目标规则所在行右侧的查看

  • 如需修改规则定义,请单击查看规则对话框下方的修改

  • 如需删除目标规则,请单击目标规则所在行右侧的删除,在弹出的对话框单击确认

  • 规则管理页面左上方的搜索栏,可以通过输入规则名称进行模糊匹配来快速查找目标规则。

查看规则执行记录

执行记录页面,为您展示运维规则的执行情况,包括执行时间、规则责任人及涉及任务数等,如需查看详细信息,请单击目标执行记录右侧的查看详情

说明

满足自动运维操作条件时,会以规则责任人身份执行运维操作,您可以在实例操作日志中查看实例触发的自动运维操作。

  • 终止运行实例的自动运维,执行记录包含如下内容:

    • 等资源实例数/利用率:以水位曲线形式为您展示等资源实例数和利用率情况,您还可以将鼠标悬停在水位线显示区域内的任意位置,即可显示此刻资源实例数和利用率情况。

    • 被终止运行的实例:为您展示被终止运行的任务列表。

  • 自动重跑的自动运维,执行记录包含如下内容:

    • 自动重跑的实例:为您展示触发自动重跑的实例个数,以及各实例的节点名称业务日期实例类型任务类型责任人等。

监控资源组

配置好运维规则后,系统会自动根据运维规则对资源组使用情况进行监控,资源组监控详情请参见资源运维