配置节点自愈通知

本文为您介绍如何配置节点自愈消息通知,以便在灵骏智算资源底层机器节点出现异常时能够及时接收通知。在收到通知后,请尽快清退该节点上的任务,以确保灵骏节点的自愈功能顺利完成。

背景信息

当系统发现节点异常时,会通过自愈能力自动切换备机,保障您的资源稳定性和高可用性。支持针对以下两种场景开启通知功能:

  • 节点禁止调度:系统识别到异常节点,节点暂时禁止调度。

  • 节点自愈受阻:异常节点存在运行任务,阻碍节点自愈。因此,需要您配合进行以下操作:

    • DSW实例:手动保存环境并关闭实例,或者通过调度中心的DSW配置策略实现自动重启实例。

    • DLC任务:手动停止任务。

使用限制

目前该功能仅针对灵骏智算资源。

订阅消息通知

当系统检测到节点禁止调度或您的任务运行在异常节点时,支持通过站内信、邮件、短信或机器人的方式通知您。为了方便您及时收到此类信息,建议开启以下通知:

短信/邮件/站内信通知

  1. 登录PAI控制台

  2. 在右上角单击image,进入消息中心。

    image

  3. 在左侧导航栏选择消息接收管理 > 基本接收管理

  4. 消息类型列找到产品运维通知,勾选站内信邮件短信,确认已添加消息接收人。您也可以单击操作列下的修改,配置更多联系人。

    image

    配置完成后,如果系统发现异常节点,将通知您所涉及的节点名称、资源配额及节点上运行的任务信息。

机器人通知

说明

阿里云消息中心提供的机器人接收平台目前仅支持钉钉、企业微信、飞书、Slack。更多说明,请参见阿里云消息中心

  1. 登录PAI控制台

  2. 在右上角单击image,进入消息中心。

    image

  3. 在左侧导航栏选择消息接收管理 > 机器人接收管理

  4. 添加机器人。如果已添加机器人,可跳过此步骤。

    1. 机器人接收管理页面右上角,单击机器人管理

    2. 机器人管理页面,参考下图中的链接获取机器人webhook信息,然后单击添加机器人完成添加操作。image

    3. 单击操作列下的测试按钮,即可测试机器人的连通性。当弹窗提示测试成功时,表示连通性正常。

  5. 机器人接收管理页面,在消息类型产品运维通知操作列,单击修改image

  6. 切换到消息接收机器人页签,选择已添加的机器人,然后单击保存image

自定义收信规则

说明

该功能仅对白名单用户开放,如需使用,请联系您的商务经理。

您可以根据自身的业务需求,配置不同的消息通知机器人及收信规则。比如,您有一个业务群,只关注PAI相关消息;另一个群需要关注阿里云全量的产品运维通知。您可以配置2个不同的接收机器人:

  • 机器人test1:接收全量消息,无需配置收信规则。

  • 机器人test2:只接收含有PAI关键词的消息,需配置收信规则。配置步骤如下:

  1. 在消息中心页面的左侧导航栏,选择消息接收管理 > 机器人接收管理image

  2. 在右侧消息类型产品运维通知操作列,单击修改image

  3. 切换到消息接收机器人页签,在目标消息接收人收信规则列,单击编辑。然后在配置自定义收信规则页面,设置白名单关键词,例如PAI。后续您只会接收到PAI相关的消息通知。image

    您也可以选择多个消息接收人,单击批量编辑规则,进行批量配置。

  4. 配置完成后,单击确定,然后在修改消息接收配置页面,单击保存。配置成功后,收信规则列会显示已启用白名单image

操作指南

收到节点自愈受阻通知后,请按照以下操作步骤,配合清退异常节点上的DSW实例和DLC任务,以保证节点替换的正常推进。

迁移DSW实例

方式一:手动迁移

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。

image

方式二:自动迁移

说明

目前自动迁移支持的地域包括华北6(乌兰察布)新加坡

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

  3. 工作空间详情页面右侧,选择工作空间配置 > 调度配置

  4. DSW区域,打开开启异常节点实例自动迁移开关。

    该功能开启后,当灵骏底层机器节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。

image

停止DLC任务

  1. 单击站内信、邮件或短信中的详情链接,进入资源配额页面。

  2. 根据提供的节点信息,单击并查看该节点下的任务列表。image

  3. 单击DLC任务名称,进入任务详情页面。然后单击右上角更多 > 停止,来停止DLC任务。image

  4. 单击克隆,您的任务将复用原有配置,并调度到正常节点上。具体操作,请参见克隆训练任务image