若希望使用DataWorks的计算能力在Kubernetes集群上运行大数据任务(例如Spark on Kubernetes),需先将Kubernetes集群绑定为DataWorks的Kubernetes计算资源。创建完成后,即可在DataWorks的数据开发模块中使用该计算资源,进行Spark等类型的任务开发与调度。
适用范围
工作空间限制:仅支持启用新版Data Studio的工作空间。
权限限制:
操作人
具备权限说明
阿里云主账号
无需额外授权。
阿里云RAM账号/RAM角色
仅拥有运维和空间管理员角色的空间成员,或拥有
AliyunDataWorksFullAccess权限的空间成员可创建计算资源。授权详情请参见授权用户空间管理员权限。
准备工作
集群准备:开通一个可用的Kubernetes集群(例如阿里云容器服务ACK集群),并已获取该集群的KubeConfig文件。详情请参见获取集群KubeConfig。
网络连通:已为工作空间绑定Serverless资源组,并确保该资源组与Kubernetes集群API Server网络连通。
若集群处于阿里云VPC内:请参考步骤二:网络打通连通两个VPC;
若集群为本地IDC自建:请参考连接本地IDC数据源连通本地和VPC。
绑定Kubernetes计算资源
进入计算资源列表页
登录DataWorks控制台,切换至目标地域后,在左侧导航栏选择工作空间。
重要工作空间限制:仅支持启用新版Data Studio的工作空间。
在工作空间列表单击目标工作空间操作栏的详情,进入工作空间配置页;选择左侧导航栏的计算资源,进入计算资源列表。
绑定Kubernetes计算资源
在计算资源列表页,配置绑定Kubernetes计算资源。
选择绑定计算资源类型。
单击绑定计算资源,进入绑定计算资源页面。
在绑定计算资源页面选择计算资源类型为Kubernetes,进入绑定Kubernetes计算资源配置页面。
配置Kubernetes计算资源。
在绑定Kubernetes计算资源配置页面,根据下表内容进行相应配置。
参数
说明
KubeConfig配置文件
将KubeConfig文件上传至对象存储OSS;并填写已上传至OSS的KubeConfig文件的完整路径。支持的路径要求如下:
根目录示例:
oss://your-bucket/.dataworks/kubeconfig。子目录示例:
oss://your-bucket/any/path/you/like/.dataworks/kubeconfig。
重要需授权AliyunServiceRoleForDataworksEngine服务关联角色,该角色出于安全考虑仅能够访问*/.dataworks的文件夹。此文件夹可以位于Bucket的根目录,也可以位于任何子目录下。
Dashboard URL
(可选)填写Kubernetes集群的Dashboard访问地址。配置后,可在DataWorks界面快速跳转至集群控制台。
Spark Web UI URL
(可选)配置 Spark 作业的 Web UI 跳转地址。配置后,可在 DataWorks 中查看作业的运行日志时,直接点击链接跳转到对应的 Spark Web UI 界面,方便您进行实时监控和历史回溯。
Spark Web UI URL:用于查看正在运行的 Spark 作业的实时 UI。通常指向一个统一的 Spark UI 代理服务地址。
Spark History Server URL:用于查看已经完成的 Spark 作业的历史 UI 和日志。通常指向您自行部署的 Spark History Server 服务地址。
Spark History Server URL
计算资源实例名
自定义该Kubernetes计算资源的名称。
描述
(可选)为该计算资源添加描述信息,便于识别和管理。
测试连通性。
在连接配置区域,勾选需要用于访问此Kubernetes集群的独享资源组。单击对应资源组右侧的测试连通性,以确保该资源组可以正常访问Kubernetes集群。若连通性测试失败,请检查资源组与Kubernetes集群的网络配置。
单击确认,完成Kubernetes计算资源的绑定。
后续操作
配置完Kubernetes计算资源后,您可在数据开发中通过新建Kubernetes Spark任务,并选择此Kubernetes资源作为运行引擎,进行数据开发。