您可以在PAI工作空间的事件通知配置中创建消息通知规则,以便追踪和监控DLC任务的状态。本文为您介绍如何使用消息通知功能。
配置消息通知
在工作空间详情页面,选择 ,然后单击新建事件规则。
在新建事件规则配置面板,配置以下参数,然后单击提交。
参数
描述
规则名称
根据界面提示信息,自定义规则名称。
事件类型
事件源选择DLC任务。支持发送消息通知的事件类型如下:
任务进程
进入排队:任务进入排队中状态。
开始竞价:任务进入竞价中状态。
开始准备环境:任务进入环境准备中状态。
开始运行:任务进入运行中状态。
任务失败:任务执行失败。
任务结束(包含成功和失败):任务执行成功或失败。
任务自动容错:当DLC任务发生异常或错误并进行自动容错处理时,发送消息通知。
任务超时:若选择此项,请先在对应工作空间的调度配置页面,设置超时规则,具体参考配置超时告警规则。
排队超时:任务排队时长>设置的最大排队时长。
环境准备超时:任务环境准备时长>设置的最大准备时长。
等待超时:任务创建至运行前的等待时长>设置的最大等待时长。
运行超时:任务运行时长>设置的最大运行时长,触发自动停止。
其他事件
任务被抢占:当闲时任务或竞价任务被抢占时,会发送消息通知。
任务被手动停止
任务优先级被调整
事件范围
支持以下取值:
我创建的:仅您自己创建的DLC任务。
当前工作空间所有的:当前工作空间下的所有的DLC任务。
事件目标
支持通过钉钉通知、语音电话、短信及邮件等方式进行消息提醒。
通知规则创建成功后,当任务触发对应规则时,系统会自动向预设的联系人发送消息通知。收到通知后,建议您前往分布式训练(DLC)页面,观察任务是否符合预期,也可以通过任务监控状态、日志信息排查具体原因,详情请参见查看训练详情。
配置超时告警规则
为指定事件类型配置超时规则,具体操作步骤如下:
在工作空间配置页面,切换到调度配置页签,在DLC区域配置任务最大等待时长、最大运行时长的超时规则。
策略
描述
资源配额
支持为使用指定资源的任务配置最大等待时长,取值如下:
公共资源组
资源配额:选择该工作空间已绑定的资源配额。
超时规则配置
为指定事件类型设置超时时间。支持配置的事件类型如下:
任务等待时长(排队时长+环境准备时长)
排队时长
环境准备时长
您也可以单击添加按钮,配置多条超时规则。
参数设置完成后,单击保存。
请前往事件通知配置选择DLC任务类型,配置对应的超时事件通知。若未配置,则不会收到通知。具体操作,请参见配置消息通知。
例如,您想追踪某个工作空间下,DLC后付费任务环境准备超时情况,可以做以下配置:
超时告警规则配置
消息通知配置
当符合条件的DLC任务的环境准备时长超过30分钟时,您会接收到以下消息通知。