在DataWorks镜像中安装MaxFrame

本文介绍在DataWorks镜像管理中通过自定义镜像安装MaxFrame并进行应用开发的方式,实现开发环境的快速构建,同时避免开发过程中与其他环境的版本冲突。

前提条件

操作步骤

步骤一:创建自定义镜像

  1. 登录DataWorks控制台,切换至DataWorks工作空间所在地域后,单击左侧导航栏的镜像管理

  2. 自定义镜像页签,单击创建镜像

  3. 在创建自定义镜像时,配置相关参数,其中需重点关注以下参数。

    参数

    说明

    镜像名称

    自定义镜像的名称。

    镜像描述

    自定义镜像的说明。

    引用类型

    选择DataWorks官方镜像

    镜像命名空间

    固定为DataWorks Default

    镜像仓库

    固定为DataWorks Default

    镜像名称/ID

    下拉选择DataWorks提供的官方镜像。本文需选择dataworks_pyodps_task_pod:prod_20240731(System_pyodps_20240731)。

    可见范围

    支持配置自定义镜像的可见范围,包括仅创建者可见全员可见

    使用子产品

    当前自定义镜像仅支持用于数据开发

    支持任务类型

    • DataWorks Shell节点官方镜像:支持Shell任务类型。

    • DataWorks PyODPS节点官方镜像:支持PyODPS 2PyODPS 3任务类型。本文需选择PyODPS 3

    • DataWorks EMR datalake 5.15.1版本官方镜像:支持EMR SparkEMR Spark SQLEMR SHELL任务类型。

    安装包

    按需添加需要的第三方包。支持以下方式:

    • 快捷安装:在安装包下拉选择框选择Python2Python3Yum,可以直接选择需要安装的环境、资源。

    • 手动输入:在安装包下拉选择框选择Script。可通过Script命令框手动输入安装命令。您可选择以下手动输入示例命令下载第三方包。

      • pip示例命令:pip install xx,支持Python2使用。

      • pip3示例命令:/home/tops/bin/pip3 install 'urllib3<2.0' ,支持Python3使用。

      • yum示例命令:yum install -y git

      • wget示例命令:wget git

    • 本文选择Script。通过Script命令框手动输入MaxFrame安装命令,若已安装则会对其升级到最新版本。代码如下。

      /home/tops/bin/pip3 install --upgrade maxframe pyarrow
    说明

    若您在安装第三方包时,Python3三方库Yum安装包在下拉列表中都没有您需要的第三方包,您可以尝试Script手动安装。

    更多详情操作,请参见创建自定义镜像

步骤二:发布镜像

  1. 完成自定义镜像创建后,进入DataWorks控制台单击进入镜像管理 > 自定义镜像页签,点击发布,在发布镜像页签,测试发布目标镜像进行测试与发布。

    1. 测试资源组选择Serverless资源组。

    2. 只有测试成功的镜像才可以发布。

    说明
  2. 如果测试失败,您可以在目标自定义镜像的操作列单击image > 修改,修改镜像配置。

  3. 测试成功后,点击发布

更多详情操作,请参见发布镜像

步骤三:修改镜像归属空间

  1. 自定义镜像页签,查看并找到已发布的自定义镜像。

  2. 在目标镜像操作列单击image > 修改归属工作空间,为自定义镜像绑定归属工作空间。

步骤四:使用镜像

旧版数据开发使用镜像

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与运维 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 在数据开发功能中找到待测试自定义镜像的任务节点,单击右侧调度配置,配置资源属性:

    • 调度资源组:选择Serverless资源组。

      说明
      • 为确保任务节点顺利运行,请确保调度资源组发布镜像时选择的测试资源组一致。

      • 如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。

    • 镜像:选择已发布的镜像。

  3. 节点调试。

    请在节点顶部工具栏单击带参运行image),配置资源组名称运行CU镜像,然后单击运行

  4. 将节点发布至生产环境。

    说明

    数据开发中修改的镜像不会同步到生产环境中,您需要将任务发布后,才能在生产环境中生效。

    详情请参见发布任务

新版数据开发使用镜像

  1. 进入数据开发页面。

    进入DataWorks工作空间列表页,在顶部切换至目标地域,找到目标工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。

  2. 在数据开发功能中找到待测试自定义镜像的任务节点,单击右侧调度配置,配置资源属性:

    • 调度资源组:选择Serverless资源组。

      说明
      • 为确保任务节点顺利运行,请确保调度资源组发布镜像时选择的测试资源组一致。

      • 如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。

    • 镜像:选择已发布的镜像。

  3. 节点调试。

    请在节点右侧调试配置中,配置计算资源资源组计算CU镜像脚本参数,然后在节点顶部工具栏单击运行

  4. 将节点发布至生产环境。

    说明

    数据开发中修改的镜像不会同步到生产环境中,您需要将任务发布后,才能在生产环境中生效。

    详情请参见节点/工作流发布

关于DataWorks自定义镜像更多详情,请参见自定义镜像