本文介绍在DataWorks镜像管理中通过自定义镜像安装MaxFrame并进行应用开发的方式,实现开发环境的快速构建,同时避免开发过程中与其他环境的版本冲突。
前提条件
已创建MaxCompute数据源,并将其绑定至DataWorks目标工作空间。详情请参见绑定数据源或集群。
已创建新版独享资源组。详情请参见新增和使用Serverless资源组。
操作步骤
步骤一:创建自定义镜像
登录DataWorks控制台,切换至DataWorks工作空间所在地域后,单击左侧导航栏的镜像管理。
在自定义镜像页签,单击创建镜像。
在创建自定义镜像时,配置相关参数,其中需重点关注以下参数。
参数
说明
镜像名称
自定义镜像的名称。
镜像描述
自定义镜像的说明。
引用类型
选择DataWorks官方镜像。
镜像命名空间
固定为DataWorks Default。
镜像仓库
固定为DataWorks Default。
镜像名称/ID
下拉选择DataWorks提供的官方镜像。本文需选择
dataworks_pyodps_task_pod:prod_20240731(System_pyodps_20240731
)。可见范围
支持配置自定义镜像的可见范围,包括仅创建者可见和全员可见。
使用子产品
当前自定义镜像仅支持用于数据开发。
支持任务类型
DataWorks Shell节点官方镜像:支持
Shell
任务类型。DataWorks PyODPS节点官方镜像:支持
PyODPS 2
和PyODPS 3
任务类型。本文需选择PyODPS 3。DataWorks EMR datalake 5.15.1版本官方镜像:支持
EMR Spark
、EMR Spark SQL
和EMR SHELL
任务类型。
安装包
按需添加需要的第三方包。支持以下方式:
快捷安装:在安装包下拉选择框选择
Python2
、Python3
、Yum
,可以直接选择需要安装的环境、资源。手动输入:在安装包下拉选择框选择
Script
。可通过Script命令框手动输入安装命令。您可选择以下手动输入示例命令下载第三方包。pip示例命令:
pip install xx
,支持Python2使用。pip3示例命令:
/home/tops/bin/pip3 install 'urllib3<2.0'
,支持Python3使用。yum示例命令:
yum install -y git
。wget示例命令:
wget git
。
本文选择Script。通过Script命令框手动输入MaxFrame安装命令,若已安装则会对其升级到最新版本。代码如下。
/home/tops/bin/pip3 install --upgrade maxframe pyarrow
说明若您在安装第三方包时,Python3三方库和Yum安装包在下拉列表中都没有您需要的第三方包,您可以尝试Script手动安装。
更多详情操作,请参见创建自定义镜像。
步骤二:发布镜像
完成自定义镜像创建后,进入DataWorks控制台单击进入 页签,点击发布,在发布镜像页签,测试并发布目标镜像进行测试与发布。
测试资源组选择Serverless资源组。
只有测试成功的镜像才可以发布。
说明如果您基于阿里云ACR镜像创建或基于个人开发环境制作镜像,则需确保测试与发布时选择的Serverless资源组绑定的VPC需与阿里云镜像容器内绑定的VPC一致。
如果您配置的自定义镜像是从公网获取第三方包,且长时间测试不通过,请检查测试资源组绑定的VPC是否具备公网访问能力,为VPC配置公网。
如果测试失败,您可以在目标自定义镜像的操作列单击
,修改镜像配置。测试成功后,点击发布。
更多详情操作,请参见发布镜像。
步骤三:修改镜像归属空间
在自定义镜像页签,查看并找到已发布的自定义镜像。
在目标镜像操作列单击
,为自定义镜像绑定归属工作空间。
步骤四:使用镜像
旧版数据开发使用镜像
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在数据开发功能中找到待测试自定义镜像的任务节点,单击右侧调度配置,配置资源属性:
调度资源组:选择Serverless资源组。
说明为确保任务节点顺利运行,请确保调度资源组与发布镜像时选择的测试资源组一致。
如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。
镜像:选择已发布的镜像。
节点调试。
请在节点顶部工具栏单击带参运行(
),配置资源组名称、运行CU、镜像,然后单击运行。
将节点发布至生产环境。
说明数据开发中修改的镜像不会同步到生产环境中,您需要将任务发布后,才能在生产环境中生效。
详情请参见发布任务。
新版数据开发使用镜像
进入数据开发页面。
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到目标工作空间,单击操作列的 ,进入Data Studio。
在数据开发功能中找到待测试自定义镜像的任务节点,单击右侧调度配置,配置资源属性:
调度资源组:选择Serverless资源组。
说明为确保任务节点顺利运行,请确保调度资源组与发布镜像时选择的测试资源组一致。
如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。
镜像:选择已发布的镜像。
节点调试。
请在节点右侧调试配置中,配置计算资源、资源组、计算CU、镜像和脚本参数,然后在节点顶部工具栏单击运行。
将节点发布至生产环境。
说明数据开发中修改的镜像不会同步到生产环境中,您需要将任务发布后,才能在生产环境中生效。
详情请参见节点/工作流发布。
关于DataWorks自定义镜像更多详情,请参见自定义镜像。