本文为您介绍如何通过配置消息接收人,以便快速获取灵骏机器节点的异常信息,以及配置DSW实例进行迁移的具体操作。
背景信息
当灵骏底层机器节点发生异常时,系统会通过节点自愈能力自动切换备机,保障用户机器资源组的稳定性和高可用性。节点自愈的前提是需要异常节点上的Pod全部回收。因此,如果异常节点上有正在运行的DSW实例,您需要手动保存环境并关闭实例,或者通过调度中心的DSW配置策略实现自动重启实例。
如果灵骏机器节点出现异常,DSW将会通过短信、邮件等方式立即通知您当前账号所配置的联系人。
地域限制
目前仅灵骏计算资源组中的DSW实例支持节点自愈。支持的地域包括华北6(乌兰察布)和新加坡。
前提条件
已开通灵骏智算资源,详情请参见新建资源组并购买灵骏智算资源。
已创建DSW实例,该实例使用灵骏智算资源。具体操作,请参见创建DSW实例。
步骤一:配置短信和邮件提示
登录PAI控制台。
在右上角单击,进入消息中心。
在左侧导航栏选择消息接收管理>基本接收管理。
在消息类型列找到产品消息>产品运维通知,确认已添加消息接收人后,勾选邮箱和短信。
配置完成后,如果灵骏机器节点发生异常,您将会收到对应的短信和邮件提示。
步骤二:配置DSW迁移
手动迁移
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以保障灵骏节点自愈。
自动迁移
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间详情页面,单击调度中心页签。
在DSW配置策略区域,打开开启异常节点实例自动迁移开关。
该功能开启后,当底层灵骏计算资源节点发生异常时,系统会自动关闭并重启实例,支持底层节点自愈流程,保障您的资源完整可用性。重启过程会为您保存环境镜像,但运行中进程无法恢复。
对于异常节点上的DSW实例,如果您正处于浏览器打开状态,DSW实例中会弹窗提醒您尽快保存环境并关闭实例,以及展示自动重启剩余时间,以保障灵骏节点自愈。