共享GPU调度组件的隔离模块cGPU版本小于1.5.13时,残留进程可能导致小概率的内核崩溃。
影响范围
如果您的集群环境满足以下组件版本条件或者GPU节点cgpu版本条件,则会受到影响:
受影响的共享GPU调度组件版本
集群类型 | 组件名称 | 受影响的组件版本 |
| ≤ 1.10.1 | |
ACK专有集群 | ≤ 1.6.0 |
受影响的存量GPU节点
存量GPU节点cgpu版本 < 1.5.13时将会受到影响,确认节点cgpu版本方式如下:
登录节点。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在节点池页面,单击节点池名称,进入节点管理,登录目标GPU节点。
如果您的操作系统为ContainerOS,为了减少潜在的安全风险,ContainerOS原则上不支持任何用户直接登录到系统进行一系列可能无法追溯的操作,也不提供SSH登录功能。若您仍然有登录实例进行运维操作的需求,请参见运维ContainerOS节点。
执行如下命令获取cgpu版本:
cat /proc/cgpu_km/version
示例输出:
1.5.12
解决方案
升级共享GPU调度组件
集群类型 | 组件名称 | 升级方式 |
| ||
ACK专有集群 |
该文章对您有帮助吗?