使用三方库进行Python计算任务开发案例

Dataphin提供租户级的三方库管理功能。在Dataphin中进行Python计算任务开发时,若需要使用Python三方库进行开发,需要通过三方库功能安装Python Module后,才可以在计算任务中正常引用。本文将为您介绍如何使用Dataphin三方库管理进行Python计算任务开发。

案例说明

本案例以使用xlrd三方库为例。

操作步骤

步骤一:安装Python Module。

  1. 在Dataphin首页,单击顶部菜单栏管理中心->系统设置

  2. 按照以下操作指引,进入安装Python Module对话框。

    依次单击Python三方包->Python Module->安装Python Module

    image

  3. 安装Python Module对话框中,配置参数。

    参数

    描述

    Module 名称

    填写xlrd

    Python 版本

    选择Python 3.7版本。

    安装方式

    选择在线安装方式。

  4. 单击确定,等待xlrd模块完成安装。

步骤二:创建Python计算任务并引入三方库

  1. 在Dataphin首页,单击顶部菜单栏研发->数据研发

  2. 按照以下操作指引,进入新建PYTHON任务对话框。

    选择项目(Dev-Prod模式需要选择环境)->单击计算任务->单击image新建图标->单击PYTHON

    image

  3. 新建PYTHON任务对话框,配置参数。

    参数

    描述

    任务名称

    填写代码任务的名称。例如,xlrd包测试。

    调度类型

    选择手动任务

    选择目录

    选择代码任务的目录。

    使用模板

    默认不开启

    Pyhton三方包

    选择步骤一中安装成功的xlrdimage

    描述

    填写对任务的简单描述。例如,xlrd包测试。

  4. 单击确定

  5. 在Python任务代码编写页面,选择Python3.7版本并编写代码。本案例测试代码如下:

    说明

    dataphin.xls资源可以使用任意的.xls格式文件上传Dataphin资源后进行引用,资源名替换为创建上传时填写的资源名称。更多信息,请参见上传资源及引用

    @resource_reference{"dataphin.xls"} # 引用dataphin.xls资源
    
    # 导入xlrd模块。
    import xlrd
    wb = xlrd.open_workbook('dataphince.xls') # 打开excel
    sh = wb.sheet_by_name('Sheet1') # 按工作簿定位工作表
    
    # 遍历excel,打印所有数据
    for i in range(sh.nrows):
        print(sh.row_values(i))
  6. 在代码编写页面,保存并提交SQL任务。

    1. 单击页面上的image图标,运行代码。

    2. 单击页面右上方的image图标,提交代码。

  7. 提交备注页面,填写备注信息。

  8. 单击确定并提交