DataWorks官方镜像为数据开发中的不同节点提供常用的运行环境,以满足不同任务的执行环境需求,您可在数据开发中直接使用官方镜像,也可以基于官方镜像创建自定义镜像后使用,本文将介绍官方镜像。
镜像介绍
进行数据开发时,若未给节点配置运行环境的镜像,则默认使用Default标准镜像。Default标准镜像仅提供基础运行环境,可能无法满足特定任务的需求。可通过官方镜像配置的基础镜像,在数据开发中为不同任务类型提供标准化环境。此外,官方镜像是预配置的基础镜像,可基于自身创建自定义镜像,通过额外配置,可以扩展更多环境场景,满足不同任务类型的需求。
镜像列表
支持版本和地域,以DataWorks控制台为准。
DataWorks提供以下镜像供您使用:
镜像名称 | 镜像说明 | 适用任务 |
dataworks_pyodps_py311_task_pod | DataWorks PyODPS节点的官方镜像,该镜像的Python版本为3.11。 | |
dataworks_pairec_task_pod | DataWorks PAI-Rec官方镜像,用于运行PAI-Rec生成的算法。feature_store sdk版本和pyfg版本以控制台显示为准。 | |
dataworks_pyodps_task_pod | DataWorks PyODPS节点的官方镜像,该镜像的Python版本为3.7。 | |
dataworks_emr_base_task_pod | ||
dataworks_shell_jdk17_task_pod | DataWorks Shell节点的官方镜像,该镜像的JDK版本为JDK17。 | |
dataworks_shell_task_pod | DataWorks Shell节点的官方镜像,JDK版本为JDK7。若需要自定义运行环境并且该环境支持Subprocess传参,可基于该镜像构建自定义镜像。 | |
dataworks_python_task_pod | DataWorks Python节点的官方镜像,Python版本为3.7。 | |
dataworks_emr_datalake_5.15.1_task_pod | DataWorks为EMR节点开发提供的EMR datalake 5.15.1版本官方镜像。 | |
dataworks_cdh_custom_task_pod | DataWorks CDH集群基础镜像,无法直接使用。必须通过自定义镜像安装 | |
dataworks_controller_task_pod | DataWorks赋值节点官方镜像,若需要自定义运行环境并且需要使用赋值节点或赋值参数用于将参数传递到下游节点的场景,请基于该镜像构建自定义镜像。 | |
dataworks-mcp | 适用于DataWorks Agent任务开发。相关系统信息:py3.11-ubuntu22.04。 | |
dataworks-notebook | 适用于Notebook开发任务开发。相关系统信息:py3.11-ubuntu22.04。 | |
dataworks-maxcompute | 适用于个人开发环境制作MaxCompute镜像。相关系统信息:py3.11-ubuntu20.04。 |
使用镜像
在数据开发中除了支持使用官方镜像外,还支持使用已绑定空间的自定义镜像。
新版数据开发使用镜像:需在节点开发页面右侧的调试配置和调度配置内配置测试运行以及发布后运行的资源组与镜像。
旧版数据开发使用镜像:需在节点开发页面中,单击带参运行后的弹窗内,或在节点开发页面右侧的调度配置页面为节点的测试运行和发布后运行配置资源组与镜像。
个人开发环境使用镜像:创建个人开发环境实例时,可在镜像配置中选择需要的不同的官方镜像。
配置资源组与镜像时,需注意:
调度资源组:选择Serverless资源组。
镜像:直接选择官方镜像或已发布的自定义镜像。