升级共享GPU调度组件

当您的集群已经安装共享GPU调度组件,但节点GPU驱动版本与集群中已存在的cGPU版本不兼容,或者节点操作系统版本与集群中已存在的cGPU版本不兼容时,您需要将共享GPU调度组件升级到最新版本。

步骤一:确认共享GPU调度组件的升级方式

您需要根据集群共享GPU调度组件(ack-ai-installer)的安装方式选择升级方式。安装共享GPU调度组件有两种方式。

  • 通过云原生AI套件安装(推荐):在云原生AI套件页面安装共享GPU调度组件ack-ai-installer。具体操作,请参见安装共享GPU调度组件

  • 通过应用目录安装(该方式已关闭):在应用市场应用目录页面安装共享GPU调度组件ack-ai-installer。目前该安装方式已关闭。但对于已通过该方式安装的存量组件,您仍然可以在此方式完成组件的升级。

    重要

    如果您卸载了集群中通过此方式安装的组件,再次安装时,您需要开通云原生AI套件服务并完成安装。

如何确定集群中共享GPU调度组件的安装方式?

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > 云原生AI套件

  3. 确认云原生AI套件页面是否显示开通服务字样。

    如有,则表明共享GPU调度组件通过应用目录完成了安装,反之则是通过云原生AI套件完成了安装。

步骤二:升级组件

通过云原生AI套件升级

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > 云原生AI套件

  3. 组件列表区域,定位ack-ai-installer组件并在操作列单击升级

通过应用目录升级

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > Helm

  3. 在Helm列表,定位ack-ai-installer组件,在操作列单击更新,根据页面指引选择最新的Chart版本并完成组件更新。

    重要

    如需进行Chart的自定义配置,请在修改配置后确认组件的更新。

    更新后,请在Helm列表确认ack-ai-installer组件的Chart版本为最新版本。