本文为您介绍如何配置节点自愈消息通知,以便在灵骏智算资源底层机器节点出现异常时能够及时接收通知。在收到通知后,请尽快清退该节点上的任务,以确保灵骏节点的自愈功能顺利完成。
背景信息
当系统发现节点异常时,会通过自愈能力自动切换备机,保障您的资源稳定性和高可用性。支持针对以下两种场景开启通知功能:
节点禁止调度
节点自愈受阻:异常节点存在运行任务,阻碍节点自愈。因此,需要您配合进行以下操作:
DSW实例:手动保存环境并关闭实例,或者通过调度中心的DSW配置策略实现自动重启实例。
DLC任务:手动停止任务。
使用限制
目前该功能仅针对灵骏智算资源。支持的地域包括华北6(乌兰察布)和新加坡。
开启消息通知
当系统导致节点禁止调度或您的任务运行在异常节点上时,支持通过站内信、邮件或短信的方式通知您。为了方便您及时收到此类信息,建议开启以下通知:
登录PAI控制台。
在右上角单击
,进入消息中心。
在左侧导航栏选择
。在消息类型列找到或短信。
,确认已添加消息接收人后,勾选站内信、邮箱配置完成后,如果系统发现异常节点,将通知您所涉及的节点名称、资源配额及节点上运行的任务信息。
操作指南
收到通知后,请按照以下操作步骤清退异常节点上的DSW实例和DLC任务:
迁移DSW实例
方式一:手动迁移
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。
方式二:自动迁移
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间详情页面,单击调度中心页签。
在DSW配置策略区域,打开开启异常节点实例自动迁移开关。
该功能开启后,当灵骏底层机器节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。
停止DLC任务
单击站内信、邮件或短信中的详情链接,进入资源配额页面。
根据提供的节点信息,单击并查看该节点下的任务列表。
单击DLC任务名称,进入任务详情页面。然后单击右上角
,来停止DLC任务。单击克隆,您的任务将复用原有配置,并调度到正常节点上。具体操作,请参见克隆训练任务。