本文为您介绍如何配置节点自愈消息通知,以便在灵骏智算资源底层机器节点出现异常时能够及时接收通知。在收到通知后,请尽快清退该节点上的任务,以确保灵骏节点的自愈功能顺利完成。
背景信息
当系统发现节点异常时,会通过自愈能力自动切换备机,保障您的资源稳定性和高可用性。支持针对以下两种场景开启通知功能:
节点禁止调度:系统识别到异常节点,节点暂时禁止调度。
节点自愈受阻:异常节点存在运行任务,阻碍节点自愈。因此,需要您配合进行以下操作:
DSW实例:手动保存环境并关闭实例,或者通过调度中心的DSW配置策略实现自动重启实例。
DLC任务:手动停止任务。
使用限制
目前该功能仅针对灵骏智算资源。
订阅消息通知
当系统检测到节点禁止调度或您的任务运行在异常节点时,支持通过站内信、邮件、短信或机器人的方式通知您。为了方便您及时收到此类信息,建议开启以下通知:
短信/邮件/站内信通知
登录PAI控制台。
在右上角单击
,进入消息中心。
在左侧导航栏选择
。在消息类型列找到产品运维通知,勾选站内信、邮件或短信,确认已添加消息接收人。您也可以单击操作列下的修改,配置更多联系人。
配置完成后,如果系统发现异常节点,将通知您所涉及的节点名称、资源配额及节点上运行的任务信息。
机器人通知
阿里云消息中心提供的机器人接收平台目前仅支持钉钉、企业微信、飞书、Slack。更多说明,请参见阿里云消息中心。
登录PAI控制台。
在右上角单击
,进入消息中心。
在左侧导航栏选择
,添加机器人。如果已添加机器人,可跳过此步骤。
在机器人接收管理页面右上角,单击机器人管理。
在机器人管理页面,参考下图中的链接获取机器人webhook信息,然后单击添加机器人完成添加操作。
单击操作列下的测试按钮,即可测试机器人的连通性。当弹窗提示测试成功时,表示连通性正常。
在机器人接收管理页面,在消息类型为产品运维通知的操作列,单击修改。
切换到消息接收机器人页签,选择已添加的机器人,然后单击保存。
自定义收信规则
该功能仅对白名单用户开放,如需使用,请联系您的商务经理。
您可以根据自身的业务需求,配置不同的消息通知机器人及收信规则。比如,您有一个业务群,只关注PAI相关消息;另一个群需要关注阿里云全量的产品运维通知。您可以配置2个不同的接收机器人:
机器人test1:接收全量消息,无需配置收信规则。
机器人test2:只接收含有PAI关键词的消息,需配置收信规则。配置步骤如下:
在消息中心页面的左侧导航栏,选择
。在右侧消息类型为产品运维通知的操作列,单击修改。
切换到消息接收机器人页签,在目标消息接收人收信规则列,单击编辑。然后在配置自定义收信规则页面,设置白名单关键词,例如PAI。后续您只会接收到PAI相关的消息通知。
您也可以选择多个消息接收人,单击批量编辑规则,进行批量配置。
配置完成后,单击确定,然后在修改消息接收配置页面,单击保存。配置成功后,收信规则列会显示已启用白名单。
操作指南
收到节点自愈受阻通知后,请按照以下操作步骤,配合清退异常节点上的DSW实例和DLC任务,以保证节点替换的正常推进。
迁移DSW实例
方式一:手动迁移
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。
方式二:自动迁移
目前自动迁移支持的地域包括华北6(乌兰察布)和新加坡。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间详情页面右侧,选择
。在DSW区域,打开开启异常节点实例自动迁移开关。
该功能开启后,当灵骏底层机器节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。
停止DLC任务
单击站内信、邮件或短信中的详情链接,进入资源配额页面。
根据提供的节点信息,单击并查看该节点下的任务列表。
单击DLC任务名称,进入任务详情页面。然后单击右上角
,来停止DLC任务。单击克隆,您的任务将复用原有配置,并调度到正常节点上。具体操作,请参见克隆训练任务。