当灵骏节点发生异常时,节点自愈功能会立即通过短信和邮件通知配置的联系人,并自动切换到备用节点,以保障服务的高可用性。
地域限制
目前仅灵骏计算资源组中的DSW实例支持节点自愈。支持的地域包括华北6(乌兰察布)和新加坡。
前提条件
已开通灵骏智算资源,详情请参见新建资源组并购买灵骏智算资源。
已创建DSW实例,该实例使用灵骏智算资源。具体操作,请参见创建DSW实例。
节点自愈功能启动前,必须先回收异常节点上的所有Pod。如果该节点上有正在运行的DSW实例,您需要:
手动保存环境并关闭实例。
或通过调度中心的DSW配置策略,实现实例自动重启。
步骤一:配置短信和邮件提示
登录PAI控制台。
在右上角单击
,进入消息中心。
在左侧导航栏选择消息接收管理>基本接收管理。
在消息类型列找到产品消息>产品运维通知,确认已添加消息接收人后,勾选站内信、邮件和短信。
配置完成后,如果灵骏机器节点发生异常,您将会收到对应的站内信、邮件和短信提示。
步骤二:配置DSW迁移
手动迁移
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。
自动迁移
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间详情页面,选择
。在DSW区域,打开开启异常节点实例自动迁移开关。
该功能开启后,当底层灵骏计算资源节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。
该文章对您有帮助吗?