运维助手

当运行在独享调度资源组上的任务依赖第三方包时,需通过该资源组的运维助手功能,将所需包安装至资源组环境,以保障任务正常执行。DataWorks提供多种内置第三方包的一键安装支持;若内置包无法满足业务需求,您也可通过Shell命令安装第三方包。

适用范围

注意事项

独享调度资源组安装第三方包后,该包会作用在此资源组上运行的所有任务。若因包版本冲突或兼容性问题导致异常,可能波及全部任务,请谨慎选择和测试所安装的包。

配额与限制

  • 命令管理:已创建的安装命令不支持修改,只能重新创建或删除。

  • 适用任务类型:通过此方式安装的 Python 第三方包,仅对在该资源组上运行Python类节点(例如,PyODPS 2、PyODPS 3)生效。

    如需在MaxCompute Python UDF中使用第三方包,请参考UDF示例:Python UDF使用第三方包
  • 命令支持:手动输入模式不支持 pip 命令。

进入运维助手

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

  2. 独享资源组页签,找到用途为数据调度的资源组,单击其资源组后的image.png图标,选择运维助手,进入对应页面。

安装第三方包

创建安装命令

  1. 在运维助手页面,单击创建命令,选择安装方式。

    方式一:快捷方式(推荐)

    适用于安装DataWorks预置的常用第三方包。

    image

    核心参数说明如下:

    参数

    描述

    命令名称

    自定义标识名称。

    命令类型

    选择快捷安装环境

    DataWorks会根据所选包自动生成对应的Shell安装命令。

    内置第三方包

    选择需安装的包及其版本。

    DataWorks支持多种Python2Python3Yum类常用包,例如:

    • Aliyun-python-sdk-core:阿里云提供的Python SDK的核心库,是与阿里云的云服务进行交互时使用的基础库,提供基本的API调用和认证功能。

    • NumPy:提供高性能的多维数组和数值计算功能,是进行科学计算和数据分析的基础库。

    • Pandas:提供高性能、易用的数据结构和数据分析工具,用于处理和分析结构化数据。

    完整列表请以实际界面为准。

    生成的Shell

    DataWorks自动根据选择生成安装命令。

    例如选择aliyun-python-sdk-core,系统将生成:pip install aliyun-python-sdk-core

    超时时间

    设置命令执行最长等待时间(秒),超时后任务将被终止。

    方式二:手动输入

    当内置包不满足需求时,可通过命令安装第三方包。

    image

    参数

    描述

    命令名称

    自定义识别名称。

    命令类型

    选择手动输入

    命令内容

    输入要执行的命令,例如:yum install -y git

    重要
    • 手动输入方式无法使用PIP命令安装第三方包。

    • 手动命令执行成功率不保证,建议提前验证脚本。

    • 三方包安装成功后,在DataStudio节点中引用时需使用绝对路径。

    安装目录

    指定命令可访问的目录路径,多个路径用英文分号(;)分隔。DataWorks会将目录添加至白名单,保证目录可访问。

    • 支持安装到/home/或非/home/目录。若存放在/home/下,必须位于/home/admin/usertools/tools/路径。

    • 未指定时,默认路径为/home/admin/usertools/tools/

    超时时间

    命令最大执行时间(秒),超时将强制中断。

  2. 单击确认完成命令配置。

执行安装命令

在运维助手页面,单击已创建命令的操作列中的运行命令,触发安装流程。系统将自动生成一条运行命令记录。

查看运行结果

在对应命令记录查看命令运行状态命令内容等基本信息。单击对应记录的操作列中的查看结果,根据日志分析运行失败的原因并处理。安装成功后,该包即可在当前资源组的调度任务中使用。

image

查看环境配置

在运维助手列表页,单击左上角的查看环境配置详情,查看当前资源组的整体环境配置情况。例如,已安装的第三方包、第三方包的版本及状态。

在任务中调用第三方包

新版数据开发使用镜像

  1. 进入数据开发:进入DataWorks工作空间列表页,在顶部切换至目标地域,找到目标工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。

  2. 配置资源组:在数据开发功能中找到待测试三方包的任务节点,单击右侧调度配置,配置资源属性。

    • 资源组:选择独享调度资源组

      如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。

      image

  3. 调试节点:在节点右侧调试配置中,配置计算资源资源组脚本参数,然后在节点顶部工具栏单击运行

  4. 发布节点:在节点顶部工具栏单击发布,将节点发布至生产环境。

旧版数据开发使用镜像

  1. 进入数据开发:登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与运维 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 配置资源组:在数据开发功能中找到待测试三方包的任务节点,单击右侧调度配置,配置资源属性。

    • 调度资源组:选择独享调度资源组

      如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。

      image

  3. 调试节点:在节点顶部工具栏单击带参运行image),配置资源组名称,然后单击运行

  4. 发布节点:在节点顶部工具栏单击保存提交,将节点发布至生产环境。

相关文档

第三方包安装完成后,使用该独享调度资源组运行的节点任务即可引用该包。参考以下文档进一步使用: