ACK Edge集群的边缘节点池支持管理线下GPU资源。本文介绍如何在ACK Edge集群中的边缘节点池中添加GPU节点。
前提条件
-
在接入节点前,需要先安装好GPU驱动,驱动版本相关信息请参见ACK支持的NVIDIA驱动版本列表。
使用限制
-
请确保您的集群配额充足。如需添加更多节点,请到配额平台提交申请扩大配额。关于ACK Edge集群的配额限制,请参见配额与限制。
-
添加GPU节点时会访问部分域名地址,需要节点侧网络安全组放开限制允许访问。具体信息,请参见节点接入访问域名和IP路由网段配置。
操作步骤
1.26及以上版本集群
ACK Edge集群从1.26版本开始,接入Nvidia GPU时,无需配置gpuVersion参数直接接入,由接入工具自动检查GPU型号并安装相关组件。
添加GPU节点的操作与其他边缘节点操作一致,具体操作,请参见添加边缘节点。
1.26及以上版本的ACK Edge集群支持全系列NVIDIA官方发布的生产级(Production Grade)GPU显卡,包括Tesla系列、Hopper(H系列)、Ada Lovelace(A系列)以及L系列。
1.26以下版本集群
在1.26以下版本ACK Edge集群中添加GPU节点时,需要选择以下支持的GPU型号。如果有其他GPU型号需求,请提交工单处理。
|
系统架构 |
GPU型号 |
边缘Kubernetes集群版本 |
|
AMD64/x86_64 |
Nvidia_Tesla_T4 |
≥1.16.9-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_P4 |
≥1.16.9-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_P100 |
≥1.16.9-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_V100 |
≥1.18.8-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_Tesla_A10 |
≥1.20.11-aliyunedge.1 |
|
AMD64/x86_64 |
Nvidia_L40 |
≥1.26.3-aliyun.1 |
-
登录容器服务管理控制台,在左侧导航栏选择集群列表。
-
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。
-
在节点池页面,选择目标节点池右侧操作列的
> 添加已有节点。 -
进入添加节点页面,单击手动添加,添加现有实例。
-
单击下一步进入实例信息页面,您可以在此处填写节点接入配置,具体的配置参数,请参见参数列表。
{ "gpuVersion": "Nvidia_Tesla_T4", "enableIptables": true, "quiet": true, "manageRuntime": true, "allowedClusterAddons": [ "kube-proxy", "flannel", "coredns" ] }说明-
生成节点接入脚本时,需配置
gpuVersion参数。当前支持的GPU版本如下请参见使用限制。 -
该参数配置完成后,接入工具会自动安装nvidia-containerd-runtime,关于nvidia-containerd-runtime更多信息,请参见nvidia-containerd-runtime。
-
-
配置完成后单击下一步,进入添加完成页面,单击复制,到您的边缘节点上粘贴并执行该脚本。
添加节点成功的结果如下所示。
I0410 10:54:25.801554 19419 join-node.go:241] [join-node] Config the kubelet service configuration successfully. I0410 10:54:25.801590 19419 join-node.go:246] [join-node] Adding edge hub static yaml I0410 10:54:25.801662 19419 join-node.go:279] [join-node] Add edge hub static yaml is ok I0410 10:54:25.801666 19419 join-node.go:384] [join-node] Start to joining node to cluster. I0410 10:54:27.338166 19419 join-node.go:393] [join-node] Join node to cluster successfully. I0410 10:54:27.338214 19419 install.go:151] [install-edgehub] Checking edgehub status I0410 10:54:37.357405 19419 install.go:156] [install-edgehub] Edgehub is ok I0410 10:54:37.357421 19419 install.go:86] [install-edgehub] Reconfiguring the kubelet configuration files. I0410 10:54:37.364387 19419 install.go:103] [install-edgehub] Reconfigure the kubelet configuration files successfully. I0410 10:54:37.364400 19419 install.go:104] [install-edgehub] Restarting the kubelet. I0410 10:54:52.626540 19419 install.go:127] [install-edgehub] Restart the kubelet successfully. I0410 10:54:52.626613 19419 postcheck.go:77] [post-check] Checking docker status I0410 10:54:52.629194 19419 postcheck.go:86] [post-check] docker is ok I0410 10:54:52.629208 19419 postcheck.go:92] [post-check] Checking kubelet status I0410 10:54:52.631661 19419 postcheck.go:100] [post-check] Kubelet is ok I0410 10:54:52.631671 19419 postcheck.go:106] [post-check] Checking edgehub status I0410 10:54:52.642345 19419 postcheck.go:113] [post-check] Edgehub is ok I0410 10:54:52.642356 19419 postcheck.go:129] [post-check] Checking addon kube-proxy status. I0410 10:54:52.683227 19419 postcheck.go:133] [post-check] kube-proxy is OK. I0410 10:54:52.683243 19419 postcheck.go:129] [post-check] Checking addon flannel status. I0410 10:54:52.724501 19419 postcheck.go:133] [post-check] flannel is OK. I0410 10:54:52.724518 19419 postcheck.go:129] [post-check] Checking addon coredns status. I0410 10:54:52.764745 19419 postcheck.go:133] [post-check] coredns is OK. I0410 10:54:52.764763 19419 postcheck.go:165] [post-check] Callback to the OpenAPI. I0410 10:54:53.014706 19419 postcheck.go:178] [post-check] Callback to the OpenAPI successfully. I0410 10:54:53.014760 19419 postcheck.go:66] This node joined into the cluster successfully.