配置DSW迁移通知:灵骏节点自愈

本文为您介绍如何通过配置消息接收人,以便快速获取灵骏机器节点的异常信息,以及配置DSW实例进行迁移的具体操作。

背景信息

当灵骏底层机器节点发生异常时,系统会通过节点自愈能力自动切换备机,保障用户机器资源组的稳定性和高可用性。节点自愈的前提是需要异常节点上的Pod全部回收。因此,如果异常节点上有正在运行的DSW实例,您需要手动保存环境并关闭实例,或者通过调度中心的DSW配置策略实现自动重启实例。

如果灵骏机器节点出现异常,DSW将会通过短信、邮件等方式立即通知您当前账号所配置的联系人。

地域限制

目前仅灵骏计算资源组中的DSW实例支持节点自愈。支持的地域包括华北6(乌兰察布)新加坡

前提条件

步骤一:配置短信和邮件提示

  1. 登录PAI控制台

  2. 在右上角单击image,进入消息中心。

    image

  3. 在左侧导航栏选择消息接收管理>基本接收管理

  4. 在消息类型列找到产品消息>产品运维通知,确认已添加消息接收人后,勾选邮箱短信

    配置完成后,如果灵骏机器节点发生异常,您将会收到对应的短信和邮件提示。

    image

步骤二:配置DSW迁移

手动迁移

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。

image

自动迁移

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

  3. 工作空间详情页面,单击调度中心页签。

  4. DSW配置策略区域,打开开启异常节点实例自动迁移开关。

    该功能开启后,当底层灵骏计算资源节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。

image