当运行在独享调度资源组上的任务依赖第三方包时,需通过该资源组的运维助手功能,将所需包安装至资源组环境,以保障任务正常执行。DataWorks提供多种内置第三方包的一键安装支持;若内置包无法满足业务需求,您也可通过Shell命令安装第三方包。
适用范围
资源组限制:仅适用于独享调度资源组。其他类型资源组(如独享数据集成资源组、Serverless资源组)不支持此功能。
权限限制:操作者需具备AliyunDataWorksFullAccess或ModifyResourceGroup权限策略。
授权操作请参见产品及控制台权限控制详情:RAM Policy。
注意事项
独享调度资源组安装第三方包后,该包会作用在此资源组上运行的所有任务。若因包版本冲突或兼容性问题导致异常,可能波及全部任务,请谨慎选择和测试所安装的包。
配额与限制
命令管理:已创建的安装命令不支持修改,只能重新创建或删除。
适用任务类型:通过此方式安装的 Python 第三方包,仅对在该资源组上运行的Python类节点(例如,PyODPS 2、PyODPS 3)生效。
如需在MaxCompute Python UDF中使用第三方包,请参考UDF示例:Python UDF使用第三方包。
命令支持:手动输入模式不支持
pip
命令。
进入运维助手
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。
在独享资源组页签,找到用途为数据调度的资源组,单击其资源组后的
图标,选择运维助手,进入对应页面。
安装第三方包
创建安装命令
在运维助手页面,单击创建命令,选择安装方式。
方式一:快捷方式(推荐)
适用于安装DataWorks预置的常用第三方包。
核心参数说明如下:
参数
描述
命令名称
自定义标识名称。
命令类型
选择快捷安装环境。
DataWorks会根据所选包自动生成对应的Shell安装命令。
内置第三方包
选择需安装的包及其版本。
DataWorks支持多种Python2、Python3、Yum类常用包,例如:
Aliyun-python-sdk-core:阿里云提供的Python SDK的核心库,是与阿里云的云服务进行交互时使用的基础库,提供基本的API调用和认证功能。
NumPy:提供高性能的多维数组和数值计算功能,是进行科学计算和数据分析的基础库。
Pandas:提供高性能、易用的数据结构和数据分析工具,用于处理和分析结构化数据。
完整列表请以实际界面为准。
生成的Shell
DataWorks自动根据选择生成安装命令。
例如选择aliyun-python-sdk-core,系统将生成:
pip install aliyun-python-sdk-core
超时时间
设置命令执行最长等待时间(秒),超时后任务将被终止。
方式二:手动输入
当内置包不满足需求时,可通过命令安装第三方包。
参数
描述
命令名称
自定义识别名称。
命令类型
选择手动输入。
命令内容
输入要执行的命令,例如:
yum install -y git
。重要手动输入方式无法使用PIP命令安装第三方包。
手动命令执行成功率不保证,建议提前验证脚本。
三方包安装成功后,在DataStudio节点中引用时需使用绝对路径。
安装目录
指定命令可访问的目录路径,多个路径用英文分号(;)分隔。DataWorks会将目录添加至白名单,保证目录可访问。
支持安装到/home/或非/home/目录。若存放在/home/下,必须位于/home/admin/usertools/tools/路径。
未指定时,默认路径为/home/admin/usertools/tools/。
超时时间
命令最大执行时间(秒),超时将强制中断。
单击确认完成命令配置。
执行安装命令
在运维助手页面,单击已创建命令的操作列中的运行命令,触发安装流程。系统将自动生成一条运行命令记录。
查看运行结果
在对应命令记录查看命令运行状态、命令内容等基本信息。单击对应记录的操作列中的查看结果,根据日志分析运行失败的原因并处理。安装成功后,该包即可在当前资源组的调度任务中使用。
查看环境配置
在运维助手列表页,单击左上角的查看环境配置详情,查看当前资源组的整体环境配置情况。例如,已安装的第三方包、第三方包的版本及状态。
在任务中调用第三方包
新版数据开发使用镜像
进入数据开发:进入DataWorks工作空间列表页,在顶部切换至目标地域,找到目标工作空间,单击操作列的 ,进入Data Studio。
配置资源组:在数据开发功能中找到待测试三方包的任务节点,单击右侧调度配置,配置资源属性。
资源组:选择独享调度资源组。
如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。
调试节点:在节点右侧调试配置中,配置计算资源、资源组和脚本参数,然后在节点顶部工具栏单击运行。
发布节点:在节点顶部工具栏单击发布,将节点发布至生产环境。
旧版数据开发使用镜像
进入数据开发:登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
配置资源组:在数据开发功能中找到待测试三方包的任务节点,单击右侧调度配置,配置资源属性。
调度资源组:选择独享调度资源组。
如果此处未显示目标资源组,请检查是否将该资源组绑定至当前工作空间。您可以前往资源组列表页,找到目标资源组,然后单击操作列的绑定工作空间,完成绑定。
调试节点:在节点顶部工具栏单击带参运行(
),配置资源组名称,然后单击运行。
发布节点:在节点顶部工具栏单击保存并提交,将节点发布至生产环境。
相关文档
第三方包安装完成后,使用该独享调度资源组运行的节点任务即可引用该包。参考以下文档进一步使用: