消息通知

您可以在PAI工作空间的事件通知配置中创建消息通知规则,以便追踪和监控DLC任务的状态。本文为您介绍如何使用消息通知功能。

配置消息通知

  1. 工作空间详情页面,选择工作空间配置 > 事件通知配置,然后单击新建事件规则image

  2. 新建事件规则配置面板,配置以下参数,然后单击提交image

    参数

    描述

    规则名称

    根据界面提示信息,自定义规则名称。

    事件类型

    事件源选择DLC任务。支持发送消息通知的事件类型如下:

    • 任务进程

      • 进入排队:任务进入排队中状态。

      • 开始竞价:任务进入竞价中状态。

      • 开始准备环境:任务进入环境准备中状态。

      • 开始运行:任务进入运行中状态。

      • 任务失败:任务执行失败。

      • 任务结束(包含成功和失败):任务执行成功或失败。

    • 任务自动容错:当DLC任务发生异常或错误并进行自动容错处理时,发送消息通知。

    • 任务超时:若选择此项,请先在对应工作空间的调度配置页面,设置超时规则,具体参考配置超时告警规则

      • 排队超时:任务排队时长>设置的最大排队时长。

      • 环境准备超时:任务环境准备时长>设置的最大准备时长。

      • 等待超时:任务创建至运行前的等待时长>设置的最大等待时长。

      • 运行超时:任务运行时长>设置的最大运行时长,触发自动停止。

    • 其他事件

      • 任务被抢占当闲时任务或竞价任务被抢占时,会发送消息通知。

      • 任务被手动停止

      • 任务优先级被调整

    事件范围

    支持以下取值:

    • 我创建的:仅您自己创建的DLC任务。

    • 当前工作空间所有的:当前工作空间下的所有的DLC任务。

    事件目标

    支持通过钉钉通知语音电话短信邮件等方式进行消息提醒。

通知规则创建成功后,当任务触发对应规则时,系统会自动向预设的联系人发送消息通知。收到通知后,建议您前往分布式训练(DLC)页面,观察任务是否符合预期,也可以通过任务监控状态、日志信息排查具体原因,详情请参见查看训练详情

配置超时告警规则

为指定事件类型配置超时规则,具体操作步骤如下:

  1. 工作空间配置页面,切换到调度配置页签,在DLC区域配置任务最大等待时长、最大运行时长的超时规则。image

    策略

    描述

    资源配额

    支持为使用指定资源的任务配置最大等待时长,取值如下:

    • 公共资源组

    • 资源配额:选择该工作空间已绑定的资源配额。

    超时规则配置

    为指定事件类型设置超时时间。支持配置的事件类型如下:

    • 任务等待时长(排队时长+环境准备时长)

    • 排队时长

    • 环境准备时长

    您也可以单击添加按钮,配置多条超时规则。

  2. 参数设置完成后,单击保存

请前往事件通知配置选择DLC任务类型,配置对应的超时事件通知。若未配置,则不会收到通知。具体操作,请参见配置消息通知

例如,您想追踪某个工作空间下,DLC后付费任务环境准备超时情况,可以做以下配置:

  • 超时告警规则配置image

  • 消息通知配置image

当符合条件的DLC任务的环境准备时长超过30分钟时,您会接收到以下消息通知。image