开启云盘并行挂载提升Pod启动速度

在高密度部署有状态业务(例如数据库)或大量短生命周期的容器(例如持续集成、批处理)等场景中,每个Pod都需要大量的云盘来存储数据,Pod的数量非常多,如果这些Pod同时被调度到同一个节点上,默认使用的串行挂载会导致Pod启动时间显著增加,您可以开启云盘并行挂载功能来解决此类问题。

前提条件

注意事项

  • 仅支持拥有磁盘序列号的云盘开启并行挂载功能。关于如何查看磁盘序列号,请详见查看块存储序列号

    20200610日之前创建的云盘没有可识别的序列号信息,无法开启,因为该类云盘会导致无法正常挂载。

  • 多个云盘从同一个节点上卸载时仍然是串行的。

  • 开启并行挂载后,ECS DescribeDisksOpenAPI返回的Device字段,以及控制台上显示的挂载点可能会不可靠,请避免在业务中使用该挂载路径,您可以通过云盘的序列号确认实际路径。

开启步骤

您可以通过自动化脚本或手工配置开启云盘并行挂载功能。

自动化脚本配置

  1. 将以下脚本保存为enable_parallel_attach.sh文件。

    展开查看配置脚本

    #!/bin/bash
    
    set -e
    set -o pipefail
    
    readonly REQUIRED_VERSION="v1.30.4"
    CLUSTER_ID=$1
    
    if [ -z "$CLUSTER_ID" ]; then
        echo "Usage: enable_parallel_attach.sh <cluster-id>"
        exit 1
    fi
    
    check_version() {
        local ADDONS VERSION
        ADDONS=$(aliyun cs GET "/clusters/${CLUSTER_ID}/addon_instances")
    
        VERSION=$(echo "$ADDONS" | jq -r '.addons[] | select(.name=="csi-plugin") | .version')
        if ! printf "%s\n" "$REQUIRED_VERSION" "$VERSION" | sort -V -C; then
            echo "csi-plugin version $VERSION is not supported, please upgrade to $REQUIRED_VERSION or later"
            exit 1
        fi
    
        PROVISIONER=managed-csiprovisioner
        VERSION=$(echo "$ADDONS" | jq -r '.addons[] | select(.name=="managed-csiprovisioner") | .version')
        if [ -z "$VERSION" ]; then
            PROVISIONER=csi-provisioner
            VERSION=$(echo "$ADDONS" | jq -r '.addons[] | select(.name=="csi-provisioner") | .version')
        fi
        if ! printf "%s\n" "$REQUIRED_VERSION" "$VERSION" | sort -V -C; then
            echo "$PROVISIONER version $VERSION is not supported, please upgrade to $REQUIRED_VERSION or later"
            exit 1
        fi
    }
    
    update_node_pool() {
        local NODE_POOL_DOC
        NODE_POOL_DOC=$(aliyun cs GET "/clusters/${CLUSTER_ID}/nodepools/$1")
    
        if [ -n "$(echo "$NODE_POOL_DOC" | jq -r '(.scaling_group.tags // [])[] | select(.key=="supportConcurrencyAttach")')" ]; then
            echo "node pool already has supportConcurrencyAttach tag"
            return
        fi
    
        aliyun cs PUT "/clusters/${CLUSTER_ID}/nodepools/$1" --header "Content-Type=application/json" \
            --body "$(echo "$NODE_POOL_DOC" | jq -c '{
        "scaling_group": {
            "tags": ((.scaling_group.tags // []) + [{
                "key": "supportConcurrencyAttach",
                "value": "true"
            }])
        }
    }')"
    }
    
    # 存量节点配置
    update_nodes() {
        local PAGE=1
        local IDX TOTAL NODES_DOC ARGS
        while :; do
            echo "tagging nodes, page $PAGE"
            NODES_DOC=$(aliyun cs GET "/clusters/${CLUSTER_ID}/nodes" --pageSize 50 --pageNumber $PAGE)
            TOTAL=$(echo "$NODES_DOC" | jq -r '.page.total_count')
    
            ARGS=()
            IDX=0
            for node in $(echo "$NODES_DOC" | jq -r '.nodes[] | select(.is_aliyun_node) | .instance_id'); do
                IDX=$((IDX+1))
                ARGS+=("--ResourceId.$IDX" "$node")
            done
            if [ "$IDX" != "0" ]; then
                aliyun ecs TagResources --region "$ALIBABA_CLOUD_REGION_ID" --ResourceType Instance "${ARGS[@]}" \
                    --Tag.1.Key supportConcurrencyAttach --Tag.1.Value true
                echo "finished nodes $(( (PAGE-1)*50+IDX ))/$TOTAL"
            fi
    
            if [[ $(( PAGE*50 )) -ge $TOTAL ]]; then
                break
            fi
            PAGE=$((PAGE+1))
        done
    }
    
    update_addon() {
        local ADDON=$1
        shift
        local CONFIG STATE
        CONFIG=$(aliyun cs GET "/clusters/${CLUSTER_ID}/addon_instances/${ADDON}" | \
            jq -c '.config | fromjson | (.FeatureGate // "" | split(",")) as $fg | .FeatureGate = ($fg + $ARGS.positional | unique | join(",")) | {config: . | tojson}' --args "$@")
    
        aliyun cs POST "/clusters/${CLUSTER_ID}/components/${ADDON}/config" --header "Content-Type=application/json" --body "$CONFIG"
    
        echo "Waiting for $ADDON config to complete"
        while true; do
            STATE=$(aliyun --secure cs GET "/clusters/${CLUSTER_ID}/addon_instances/${ADDON}" | jq -r '.state')
            echo "state: $STATE"
            if [ "$STATE" != "updating" ]; then
                break
            fi
            sleep 5
        done
        if [ "$STATE" != "active" ]; then
            echo "Failed to update $ADDON config"
            return 1
        fi
    }
    
    check_version
    
    aliyun cs GET "/clusters/${CLUSTER_ID}/nodepools" | jq -r '.nodepools[]|.nodepool_info|"\(.nodepool_id)\t\(.name)"' | \
    while read -r NODE_POOL_ID NODE_POOL_NAME; do
        echo "Updating tags for node pool $NODE_POOL_NAME ($NODE_POOL_ID)"
        update_node_pool "$NODE_POOL_ID"
    done
    
    ALIBABA_CLOUD_REGION_ID=$(aliyun cs GET "/clusters/${CLUSTER_ID}" | jq -r .region_id)
    
    update_nodes
    
    update_addon $PROVISIONER DiskADController=true DiskParallelAttach=true
    update_addon csi-plugin DiskADController=true
    
    echo "All done! Now the disks can be attached concurrently to the same node."
  2. 执行脚本并行挂载云盘。

    bash enable_parallel_attach.sh <集群ID>

手工配置

  1. 新增集群节点池配置中的ECS 标签,使其键为supportConcurrencyAttach,值为true,确保新创建的ECS实例有该标签。

    1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

    2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

    3. 在节点池列表页面,单击目标节点池所在行操作列的编辑

    4. 在编辑节点池页面最下方的高级选项区域,增加ECS 标签,其键为supportConcurrencyAttach,值为true

  2. 为集群中所有存量节点的ECS实例添加标签,使其键为supportConcurrencyAttach,值为true。具体操作,请参见创建并绑定自定义标签

  3. 在左侧导航栏选择运维管理 > 组件管理,单击存储页签,定位csi-provisioner组件,单击组件右下方的配置,将FeatureGate设置为DiskADController=true,DiskParallelAttach=true

    说明

    DiskADController=true设置后,云盘相关attachdetach的操作交由csi-provisioner;DiskParallelAttach=true设置后,将开启云盘并行挂载功能。

  4. csi-provisioner配置完成后,将csi-plugin组件的FeatureGate设置为DiskADController=true

验证云盘并行挂载性能

本示例将在同一节点上创建大量挂载云盘的Pod,以验证开启并行挂载对Pod启动速度的提升。

重要

本文中提供的测试数据仅为理论值(参考值),实际数据以您的操作环境为准。

  1. ACK集群中,添加一个支持多个云盘挂载的节点。例如,ecs.g7se.16xlarge类型的实例最多可挂载56块云盘。

  2. 使用以下内容,创建测试应用attach-stress.yaml文件,并将<YOUR-HOSTNAME>替换为实际的节点名称。

    展开查看attach-stress.yaml文件

    ---
    apiVersion: storage.k8s.io/v1
    kind: StorageClass
    metadata:
      name: alibabacloud-disk
    provisioner: diskplugin.csi.alibabacloud.com
    parameters:
      type: cloud_auto
    volumeBindingMode: WaitForFirstConsumer
    reclaimPolicy: Delete
    allowVolumeExpansion: true
    ---
    apiVersion: apps/v1
    kind: StatefulSet
    metadata:
      name: attach-stress
    spec:
      selector:
        matchLabels:
          app: attach-stress
      serviceName: attach-stress
      replicas: 1
      podManagementPolicy: Parallel
      persistentVolumeClaimRetentionPolicy:
        whenScaled: Retain
        whenDeleted: Delete
      template:
        metadata:
          labels:
            app: attach-stress
        spec:
          affinity:
            nodeAffinity:
              requiredDuringSchedulingIgnoredDuringExecution:
                nodeSelectorTerms:
                - matchExpressions:
                  - key: kubernetes.io/hostname
                    operator: In
                    values:
                    - <YOUR-HOSTNAME>  # 替换为实际节点的名称。
          hostNetwork: true
          containers:
          - name: attach-stress
            image: registry-cn-hangzhou.ack.aliyuncs.com/acs/busybox
            command: ["/bin/sh", "-c", "trap exit TERM; while true; do date > /mnt/0/data; sleep 1; done"]
            volumeMounts:
            - name: volume-0
              mountPath: /mnt/0
            - name: volume-1
              mountPath: /mnt/1
      volumeClaimTemplates:
      - metadata:
          name: volume-0
        spec:
          accessModes: [ "ReadWriteOnce" ]
          storageClassName: alibabacloud-disk
          resources:
            requests:
              storage: 1Gi
      - metadata:
          name: volume-1
        spec:
          accessModes: [ "ReadWriteOnce" ]
          storageClassName: alibabacloud-disk
          resources:
            requests:
              storage: 1Gi
  3. 执行以下命令,确认应用正常启动,然后将副本数量缩容到0,以准备后续的批量挂载测试。

    kubectl apply -f attach-stress.yaml
    kubectl rollout status sts attach-stress
    kubectl scale sts attach-stress --replicas 0

    预期输出:

    storageclass.storage.k8s.io/alibabacloud-disk created
    statefulset.apps/attach-stress created
    partitioned roll out complete: 1 new pods have been updated...
    statefulset.apps/attach-stress scaled
  4. 执行以下命令,开始批量挂载测试,并统计Pod启动所需的时间。

    说明

    此时该集群尚未开启并行挂载功能,请根据您的节点最大支持的云盘数量调整测试的副本数。

    date && \
      kubectl scale sts attach-stress --replicas 28 && \
      kubectl rollout status sts attach-stress && \
      date

    预期输出:

    20241015日 星期二 192136秒 CST
    statefulset.apps/attach-stress scaled
    Waiting for 28 pods to be ready...
    Waiting for 27 pods to be ready...
    <省略……>
    Waiting for 3 pods to be ready...
    Waiting for 2 pods to be ready...
    Waiting for 1 pods to be ready...
    partitioned roll out complete: 28 new pods have been updated...
    20241015日 星期二 192455秒 CST

    输出表明,在未开启并行挂载时,28Pod全部启动耗时超过3分钟。

  5. 参考上文开启步骤开启该集群的并行挂载功能。

  6. 执行以下命令,清理之前创建的Pod,准备下一轮测试。

    说明

    清理时,观察集群中相关的volumeattachments资源,等待它们被删除后即可完成云盘的卸载,过程大约需要几分钟。

    kubectl scale sts attach-stress --replicas 0
  7. 再次执行以下测试命令,统计开启并行挂载后Pod启动所需的时间,预期仅需要约40秒,较未开启时的3分钟,有明显提升。

    date && \
      kubectl scale sts attach-stress --replicas 28 && \
      kubectl rollout status sts attach-stress && \
      date

    预期输出:

    20241015日 星期二 200254秒 CST
    statefulset.apps/attach-stress scaled
    Waiting for 28 pods to be ready...
    Waiting for 27 pods to be ready...
    <省略……>
    Waiting for 3 pods to be ready...
    Waiting for 2 pods to be ready...
    Waiting for 1 pods to be ready...
    partitioned roll out complete: 28 new pods have been updated...
    20241015日 星期二 200331秒 CST
  1. 执行以下命令,清理集群中的测试应用。

    kubectl delete -f attach-stress.yaml