Dataphin提供租户级的三方库管理功能。在Dataphin中进行Python计算任务开发时,若需要使用Python三方库进行开发,需要通过三方库功能安装Python Module后,才可以在计算任务中正常引用。本文将为您介绍如何使用Dataphin三方库管理进行Python计算任务开发。
案例说明
本案例以使用xlrd三方库为例。
操作步骤
步骤一:安装Python Module。
在Dataphin首页,单击顶部菜单栏管理中心->系统设置。
按照以下操作指引,进入安装Python Module对话框。
依次单击Python三方包->Python Module->安装Python Module。
在安装Python Module对话框中,配置参数。
参数
描述
Module 名称
填写xlrd。
Python 版本
选择Python 3.7版本。
安装方式
选择在线安装方式。
单击确定,等待
xlrd
模块完成安装。
步骤二:创建Python计算任务并引入三方库
在Dataphin首页,单击顶部菜单栏研发->数据研发。
按照以下操作指引,进入新建PYTHON任务对话框。
选择项目(Dev-Prod模式需要选择环境)->单击计算任务->单击新建图标->单击PYTHON。
在新建PYTHON任务对话框,配置参数。
参数
描述
任务名称
填写代码任务的名称。例如,xlrd包测试。
调度类型
选择手动任务。
选择目录
选择代码任务的目录。
使用模板
默认不开启。
Pyhton三方包
选择步骤一中安装成功的xlrd包。
描述
填写对任务的简单描述。例如,xlrd包测试。
单击确定。
在Python任务代码编写页面,选择Python3.7版本并编写代码。本案例测试代码如下:
说明dataphin.xls
资源可以使用任意的.xls格式文件上传Dataphin资源后进行引用,资源名替换为创建上传时填写的资源名称。更多信息,请参见上传资源及引用。@resource_reference{"dataphin.xls"} # 引用dataphin.xls资源 # 导入xlrd模块。 import xlrd wb = xlrd.open_workbook('dataphince.xls') # 打开excel sh = wb.sheet_by_name('Sheet1') # 按工作簿定位工作表 # 遍历excel,打印所有数据 for i in range(sh.nrows): print(sh.row_values(i))
在代码编写页面,保存并提交SQL任务。
单击页面上的图标,运行代码。
单击页面右上方的图标,提交代码。
在提交备注页面,填写备注信息。
单击确定并提交。