使用Fluid加速ACK Edge集群的边缘节点访问OSS文件-容器服务 Kubernetes 版 ACK-阿里云

Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，如大数据应用、AI应用等。在边缘场景中，借助Fluid的数据集加速引擎，可以显著提升边缘节点访问OSS文件的速度。本文介绍如何在ACK Edge集群中使用Fluid数据加速功能。

前提条件

已创建ACK Edge集群，且集群版本为1.18及以上。具体操作，请参见创建集群。
已创建一个边缘节点池，并为其添加边缘节点，具体操作，请参见创建边缘节点池、添加边缘节点。
已安装云原生AI套件并部署ack-fluid组件。
重要
若您已安装开源Fluid，请卸载后再部署ack-fluid组件。
- 未安装云原生AI套件：安装时开启Fluid数据加速。具体操作，请参见部署AI套件控制台。
- 已安装云原生AI套件：在容器服务管理控制台的云原生AI套件页面部署ack-fluid。
已通过kubectl连接Kubernetes集群。具体操作，请参见通过kubectl工具连接集群。
已开通阿里云对象存储OSS服务。具体操作，请参见开通OSS服务。

步骤一：准备OSS Bucket的数据

执行以下命令，下载测试数据到ECS实例中。

wget https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz

将下载的测试数据上传到阿里云OSS对应的Bucket中。
重要
上传到OSS的步骤以Alibaba Cloud Linux 3.2104 LTS 64位的ECS实例为例。其他操作系统的具体操作，请参见命令行工具ossutil命令参考和命令行工具ossutil 1.0。
1. 安装ossutil。
2. 创建名称为examplebucket的存储空间。
  - 输入以下命令创建examplebucket。
```
ossutil64 mb oss://examplebucket
```
  - 以下输出结果表明已成功创建examplebucket。
```
0.668238(s) elapsed
```
3. 将下载的测试数据上传到新建的examplebucket中。
```
ossutil64 cp spark-3.0.1-bin-hadoop2.7.tgz oss://examplebucket
```

步骤二：创建Dataset和JindoRuntime

在创建Dataset之前，在ECS实例中的根目录中创建一个mySecret.yaml文件。
```
apiVersion: v1
kind: Secret
metadata:
  name: mysecret
stringData:
  fs.oss.accessKeyId: xxx
  fs.oss.accessKeySecret: xxx
```
其中，fs.oss.accessKeyId和fs.oss.accessKeySecret是步骤一中用来访问OSS的AccessKey ID和AccessKey Secret。
执行以下命令，生成Secret。K8s会对已创建的Secret使用加密编码，避免将其明文暴露。
```
kubectl create -f mySecret.yaml
```

使用以下YAML文件样例创建一个名为resource.yaml的文件，里面包含两部分：

创建一个Dataset，描述远端存储数据集和UFS的信息。
创建一个JindoRuntime，启动一个JindoFS的集群来提供缓存服务。

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: hadoop
spec:
  nodeAffinity:
    required:
      nodeSelectorTerms:
        - matchExpressions:
          - key: alibabacloud.com/nodepool-id
            operator: In
            values:
              - npxxxxxxxxxxxxxx
  mounts:
    - mountPoint: oss://<oss_bucket>/<bucket_dir>
      options:
        fs.oss.endpoint: <oss_endpoint>
      name: hadoop
      path: "/"
      encryptOptions:
        - name: fs.oss.accessKeyId
          valueFrom:
            secretKeyRef:
              name: mysecret
              key: fs.oss.accessKeyId
        - name: fs.oss.accessKeySecret
          valueFrom:
            secretKeyRef:
              name: mysecret
              key: fs.oss.accessKeySecret
---
apiVersion: data.fluid.io/v1alpha1
kind: JindoRuntime
metadata:
  name: hadoop
spec:
  nodeSelector:
    alibabacloud.com/nodepool-id: npxxxxxxxxxxxxxx
  replicas: 2
  tieredstore:
    levels:
      - mediumtype: MEM
        path: /dev/shm
        volumeType: emptyDir
        quota: 2Gi
        high: "0.99"
        low: "0.95"

说明

在ACK Edge集群中，您需要通过nodeAffinity和nodeSelector将Dataset和JindoRuntime部署到同一个节点池中，确保节点池内的节点网络互通。
由于边缘节点管控和OSS的访问都需要通过云边网络访问云上，建议您保证足够的网络带宽，以免影响到管控通道的稳定性。

相关参数解释如下表所示：

参数	说明
mountPoint	`oss://<oss_bucket>/<bucket_dir>`表示挂载UFS的路径。此路径必须指向一个目录，无法挂载单个文件，并且不需要包含Endpoint信息。
fs.oss.endpoint	OSS Bucket的Endpoint信息，公网或私网地址均支持。更多信息，请参见OSS地域和访问域名。
replicas	表示创建JindoFS集群的Worker数量。
mediumtype	表示缓存类型。在创建JindoRuntime模板样例时，JindoFS暂时只支持HDD/SSD/MEM中的其中一种缓存类型。
path	表示存储路径，暂时只支持单个路径。当选择MEM做缓存时，需指定一个本地路径来存储Log等文件。
quota	表示缓存最大容量，单位GB。
high	表示存储容量上限大小。
low	表示存储容量下限大小。

执行以下命令，创建JindoRuntime和Dataset。
```
kubectl create -f resource.yaml
```

执行以下命令，查看Dataset的部署情况。

kubectl get dataset hadoop

预期输出：

NAME     UFS TOTAL SIZE   CACHED   CACHE CAPACITY   CACHED PERCENTAGE   PHASE   AGE
hadoop        210MiB       0.00B    4.00GiB              0.0%          Bound   1h

执行以下命令，查看JindoRuntime的部署情况。

kubectl get jindoruntime hadoop

预期输出：

NAME     MASTER PHASE   WORKER PHASE   FUSE PHASE   AGE
hadoop   Ready          Ready          Ready        4m45s

执行以下命令，查看PV和PVC的创建情况。

kubectl get pv,pvc

预期输出：

NAME                      CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM            STORAGECLASS   REASON   AGE
persistentvolume/hadoop   100Gi      RWX            Retain           Bound    default/hadoop                           52m

NAME                           STATUS   VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/hadoop   Bound    hadoop   100Gi      RWX                           52m

从上述输出的查询信息，可以知道Dataset和JindoRuntime已创建成功。

步骤三：创建应用容器体验加速效果

您可以通过创建应用容器来使用JindoFS加速服务，或者提交机器学习作业来体验相关功能。本文以创建一个应用容器多次访问同一数据，并通过比较访问时间来展示JindoRuntime的加速效果。

使用以下YAML文件样例，创建名为app.yaml 的文件。

apiVersion: v1
kind: Pod
metadata:
  name: demo-app
spec:
  nodeSelector:
    alibabacloud.com/nodepool-id: npxxxxxxxxxxxxx
  containers:
    - name: demo
      image: anolis-registry.cn-zhangjiakou.cr.aliyuncs.com/openanolis/nginx:1.14.1-8.6
      volumeMounts:
        - mountPath: /data
          name: hadoop
  volumes:
    - name: hadoop
      persistentVolumeClaim:
        claimName: hadoop

说明

在ACK Edge集群中，您需要通过nodeSelector将测试Pod部署到步骤二指定的节点池中。

执行以下命令，创建应用容器。
```
kubectl create -f app.yaml
```

执行以下命令，查看文件大小。

kubectl exec -it demo-app -- bash
du -sh /data/spark-3.0.1-bin-hadoop2.7.tgz

预期输出：

210M    /data/spark-3.0.1-bin-hadoop2.7.tgz

执行如下命令，查看文件的拷贝时间。
```
time cp /data/spark-3.0.1-bin-hadoop2.7.tgz /dev/null
```
预期输出：
```
real    0m18.386s
user    0m0.002s
sys    0m0.105s
```
从上述输出信息，可以知道文件拷贝时间消耗了18s。

执行以下命令，查看此时Dataset的缓存情况。

kubectl get dataset hadoop

预期输出：

NAME     UFS TOTAL SIZE   CACHED   CACHE CAPACITY   CACHED PERCENTAGE   PHASE   AGE
hadoop   210.00MiB       210.00MiB    4.00GiB        100.0%           Bound   1h

从上述输出信息，可以知道210 MiB的数据已经都缓存到了本地。

执行以下命令，删除之前的应用容器，新建相同的应用容器。
说明
这样做的目的是为了避免其他因素（例如：Page Cache）对结果造成影响。
```
kubectl delete -f app.yaml && kubectl create -f app.yaml
```
执行如下命令，查看文件拷贝时间。
```
kubectl exec -it demo-app -- bash
time cp /data/spark-3.0.1-bin-hadoop2.7.tgz /dev/null
```
预期输出：
```
real    0m0.048s
user    0m0.001s
sys     0m0.046s
```
从上述输出信息，可以知道进行文件的cp拷贝观察时间消耗48 ms，整个拷贝的时间缩短了300多倍。
说明
由于文件已经被JindoFS缓存，第二次访问所需时间远小于第一次。

环境清理

当您不再使用该数据加速功能时，需要清理环境。

执行以下命令，删除应用容器。

kubectl delete pod demo-app

执行以下命令，删除Dataset和JindoRuntime。

kubectl delete dataset hadoop