灵骏异常节点自愈

当灵骏节点发生异常时,节点自愈功能会立即通过短信和邮件通知配置的联系人,并自动切换到备用节点,以保障服务的高可用性。

地域限制

目前仅灵骏计算资源组中的DSW实例支持节点自愈。支持的地域包括华北6(乌兰察布)新加坡

前提条件

  • 已开通灵骏智算资源,详情请参见新建资源组并购买灵骏智算资源

  • 已创建DSW实例,该实例使用灵骏智算资源。具体操作,请参见创建DSW实例

  • 节点自愈功能启动前,必须先回收异常节点上的所有Pod。如果该节点上有正在运行的DSW实例,您需要:

    • 手动保存环境并关闭实例。

    • 或通过调度中心的DSW配置策略,实现实例自动重启。

步骤一:配置短信和邮件提示

  1. 登录PAI控制台

  2. 在右上角单击image,进入消息中心。

    image

  3. 在左侧导航栏选择消息接收管理>基本接收管理

  4. 在消息类型列找到产品消息>产品运维通知,确认已添加消息接收人后,勾选站内信邮件短信

    配置完成后,如果灵骏机器节点发生异常,您将会收到对应的站内信、邮件和短信提示。image

步骤二:配置DSW迁移

手动迁移

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。

image

自动迁移

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

  3. 工作空间详情页面,选择工作空间配置 > 调度配置

  4. DSW区域,打开开启异常节点实例自动迁移开关。

    该功能开启后,当底层灵骏计算资源节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。

对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。

image