配置节点自愈通知

本文为您介绍如何配置节点自愈消息通知,以便在灵骏智算资源底层机器节点出现异常时能够及时接收通知。在收到通知后,请尽快清退该节点上的任务,以确保灵骏节点的自愈功能顺利完成。

背景信息

当系统发现节点异常时,会通过自愈能力自动切换备机,保障您的资源稳定性和高可用性。支持针对以下两种场景开启通知功能:

  • 节点禁止调度

  • 节点自愈受阻:异常节点存在运行任务,阻碍节点自愈。因此,需要您配合进行以下操作:

    • DSW实例:手动保存环境并关闭实例,或者通过调度中心的DSW配置策略实现自动重启实例。

    • DLC任务:手动停止任务。

使用限制

目前该功能仅针对灵骏智算资源。支持的地域包括华北6(乌兰察布)和新加坡。

开启消息通知

当系统导致节点禁止调度或您的任务运行在异常节点上时,支持通过站内信、邮件或短信的方式通知您。为了方便您及时收到此类信息,建议开启以下通知:

  1. 登录PAI控制台

  2. 在右上角单击image,进入消息中心。

    image

  3. 在左侧导航栏选择消息接收管理 > 基本接收管理

  4. 在消息类型列找到产品消息 > 产品运维通知,确认已添加消息接收人后,勾选站内信邮箱短信

    image

    配置完成后,如果系统发现异常节点,将通知您所涉及的节点名称、资源配额及节点上运行的任务信息。

操作指南

收到通知后,请按照以下操作步骤清退异常节点上的DSW实例和DLC任务:

迁移DSW实例

方式一:手动迁移

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。

image

方式二:自动迁移

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

  3. 工作空间详情页面,单击调度中心页签。

  4. DSW配置策略区域,打开开启异常节点实例自动迁移开关。

    该功能开启后,当灵骏底层机器节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。

image

停止DLC任务

  1. 单击站内信、邮件或短信中的详情链接,进入资源配额页面。

  2. 根据提供的节点信息,单击并查看该节点下的任务列表。image

  3. 单击DLC任务名称,进入任务详情页面。然后单击右上角更多 > 停止,来停止DLC任务。image

  4. 单击克隆,您的任务将复用原有配置,并调度到正常节点上。具体操作,请参见克隆训练任务image