自动运维是DataWorks为保障系统持续稳定运行而提供的高级功能。用户可以将过往处理数据故障的应急经验,配置为自动运维规则。当满足规则触发条件时,系统将自动执行运维操作,提升服务稳定性和运维效率,并降低夜间起夜率。
背景信息
DataWorks的自动运维功能支持自动终止运行实例和自动重跑。
自动终止运行实例
当运行在独享调度资源组上的任务触发了资源组的自定义监控报警时,使用自动运维规则对资源组上的部分实例执行自动终止运行的操作。例如:当独享调度资源组的资源利用率达到80%并且持续10分钟,则自动终止运行在该资源组上优先级为1、3的非周期调度实例执行。
自动重跑
当任务状态为失败,且任务本身未设置失败自动重跑的情况下;或者任务因执行超时导致失败时,按照自动运维的自动重跑规则重跑任务。
使用限制
权限限制:仅支持阿里云主账号、拥有AliyunDataWorksFullAccess权限RAM账号以及空间管理员管理自动运维规则。
满足自动运维操作条件时,会以规则责任人身份执行运维操作,您可以在实例操作日志中查看实例触发的自动运维操作。
资源组限制:
自动终止运行实例类型的自动运维规则仅对运行在独享调度资源组上的任务生效,且仅独享调度资源组利用率类型的监控规则可触发自动运维操作。
自动重跑实例类型的自动运维规则仅对运行在通用型(Serverless)资源组上的任务生效。
功能限制:
自动终止运行实例类型的自动运维规则,多个运维规则支持关联同一条监控规则。
自动重跑实例类型的自动运维规则,一个空间仅支持创建一条。
目前仅支持查看30天内的自动运维规则执行记录。
进入自动运维
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入运维中心。
在左侧导航栏,选择 ,进入自动运维页面。
运维规则管理
自动运维页面为您展示已创建的运维规则列表及规则执行记录信息,您可以根据需求,执行如下操作。
仅支持阿里云主账号、拥有AliyunDataWorksFullAccess权限RAM账号以及空间管理员管理自动运维规则。
添加规则
在规则管理页面,单击右上方的添加规则,按照要求填写如下信息:
参数 | 说明 |
参数 | 说明 | ||
名称 | 输入新建的运维规则名称。 | ||
责任人 | 您可以指定规则的责任人。自动运维执行的相关运维动作,会以此处设置的规则责任人身份执行。 | ||
运维动作 | 选择触发监控规则时,实例需要执行的运维操作。
当前支持终止运行实例和自动重跑两个自动运维动作,请根据您选择的运维动作,参考下文配置相关参数。 |
自动运维规则需要定义规则触发条件,DataWorks仅对满足过滤条件的任务执行自动运维操作。您可设置黑名单排除不需要执行运维操作的任务,同时,自动运维规则具体生效逻辑将受到您定义的约束规则限制。
类别 | 参数 | 说明 |
触发条件 | 关联监控规则 | 选择需要关联的监控规则,在满足监控规则时,将会自动停止运行实例。
|
过滤条件 | 资源组 | 展示监控规则中设置的资源组名称,无需配置。 |
工作空间 | 选择该运维规则生效的工作空间。 | |
实例类型 | 选择该运维规则对哪些类型的实例生效。 | |
调度周期 | 选择该运维规则对哪些调度周期的实例生效。当实例类型选择周期实例或补数据实例时,需要配置调度周期。 | |
优先级 | 选择该运维规则对哪些优先级的实例生效,数值越大优先级越高。 | |
状态 | 选择该运维规则对处于哪些状态的实例生效。 | |
黑名单 | 黑名单 | 配置即使命中规则也不需要执行自动运维操作的任务。如需添加,请在搜索框中输入任务名称或任务ID查询选择。 |
约束规则 | 生效时段 | 设置规则生效的起始时间和结束时间。在生效时段内,自动运维规则满足规则运行条件时,才会执行自动运维操作。非生效时段,即便满足自动运维规则触发条件,也不会执行自动运维操作。 |
最大生效次数 | 设置规则触发的最大次数,即最多执行多少次自动运维规则。 每次执行自动运维规则前,都会检查是否还满足触发条件。如果不满足,下一次将不会执行自动运维规则。 | |
最小生效间隔 | 设置规则触发的最小时间间隔。 |
类别 | 参数 | 说明 |
触发条件 | 运行状态 | 在满足如下情况时,将自动重跑指定实例。
|
过滤条件 | 工作空间 | 选择该运维规则生效的工作空间。 |
实例类型 | 选择该运维规则对哪些类型的实例生效。 | |
任务类型 | 选择该运维规则对哪些类型的任务生效。 | |
调度周期 | 选择该运维规则对哪些调度周期的实例生效。当实例类型选择周期实例或补数据实例时,需要配置调度周期。 | |
优先级 | 选择该运维规则对哪些优先级的实例生效,数值越大优先级越高。 | |
标签 | 选择该运维规则对关联了哪些标签的实例生效。 | |
日志含关键字 | 选择日志关键字,当任务的日志中包含了此处选择的关键字时,会触发自动重跑规则。 当前支持选择 仅运行在Serverless资源组上的任务日志包含 | |
黑名单 | 黑名单 | 配置即使命中规则也不需要执行自动运维操作的任务。如需添加,请在搜索框中输入任务名称或任务ID查询选择。 |
重跑操作 | 前置操作 | 如果您的任务是Serverless资源组计算型任务,可选择在重跑前增加计算型任务CU。 请合理配置每次重跑增加的CU,避免出现资源抢占而阻塞其他任务运行。 |
增加CU | 在原任务执行消耗CU的基础上,添加指定CU运行本次重跑实例。增加的CU仅用于本实例的本次运行。 | |
重跑次数 | 触发自动重跑时,最大重跑次数,取值范围1~10,单位:次。 | |
重跑间隔 | 重跑间隔时间,取值范围3~30,单位:分钟。 | |
约束规则 | 生效时段 | 设置规则生效的起始时间和结束时间。在生效时段内,自动运维规则满足规则运行条件时,才会执行自动运维操作。非生效时段,即便满足自动运维规则触发条件,也不会执行自动运维操作。 |
启用/停用规则
创建规则后默认立即生效,如需使规则停止生效,请单击目标规则所在行右侧的,设置是否启用。
管理规则
如需查看规则信息,请在规则管理页面,单击目标规则所在行右侧的查看。
如需修改规则定义,请单击查看规则对话框下方的修改。
如需删除目标规则,请单击目标规则所在行右侧的删除,在弹出的对话框单击确认。
在规则管理页面左上方的搜索栏,可以通过输入规则名称进行模糊匹配来快速查找目标规则。
查看规则执行记录
在执行记录页面,为您展示运维规则的执行情况,包括执行时间、规则责任人及涉及任务数等,如需查看详细信息,请单击目标执行记录右侧的查看详情。
满足自动运维操作条件时,会以规则责任人身份执行运维操作,您可以在实例操作日志中查看实例触发的自动运维操作。
终止运行实例的自动运维,执行记录包含如下内容:
等资源实例数/利用率:以水位曲线形式为您展示等资源实例数和利用率情况,您还可以将鼠标悬停在水位线显示区域内的任意位置,即可显示此刻资源实例数和利用率情况。
被终止运行的实例:为您展示被终止运行的任务列表。
自动重跑的自动运维,执行记录包含如下内容:
自动重跑的实例:为您展示触发自动重跑的实例个数,以及各实例的节点名称、业务日期、实例类型、任务类型、责任人等。
后续步骤
配置好运维规则后,系统会自动根据运维规则对资源组使用情况进行监控,资源组监控详情请参见资源运维。
- 本页导读 (1)
- 背景信息
- 使用限制
- 进入自动运维
- 运维规则管理
- 添加规则
- 启用/停用规则
- 管理规则
- 查看规则执行记录
- 后续步骤