使用Python读文件

更新时间:
复制为 MD 格式

本文为您介绍使用Python脚本读取已上传的资源文件(如.xlsx、.csv等),并通过pip安装第三方库(如openpyxl)实现文件解析。

前提条件

步骤一:上传文件

  1. Dataphin首页的顶部菜单栏,选择研发 > 数据研发

  2. 在左侧导航栏选择数据处理 > 资源,在资源页面,单击image图标。

  3. 新建资源对话框中,配置参数。

    image

    参数

    描述

    类型

    选择others

    名称

    上传文件的名称需要以文件类型结尾。例如test.xlsx。

    描述

    填写资源的描述。

    上传文件

    选择本地的文件,例如test.xlsx。

    计算类型

    选择无归属引擎

    重要

    文件资源存储至Dataphin系统,因此仅支持选择无归属引擎

    选择目录

    默认为资源管理

  4. 单击提交,完成资源的提交。

  5. 提交备注对话框,填写备注信息后,单击确定并提交

步骤二:安装Python三方包

  1. Dataphin首页的顶部菜单栏,选择管理中心 > 系统设置

  2. 在左侧导航栏选择三方库管理 > Python三方包,在Python Module页签,单击安装Python Module按钮。

  3. 安装Python Module对话框中,配置参数。

    image

    参数

    描述

    Module名称

    填写Python Module的名称。例如openpyxl。

    Module版本

    输入Module版本。例如1.0.0。

    Python版本

    选择Python版本。选择Python 3.7。

    安装方式

    选择在线安装

  4. 单击确定,即可完成安装Python Module操作。

步骤三:创建Python任务

  1. 在左侧导航栏选择数据处理 > 计算任务

  2. 计算任务页面,单击image图标,选择Python

  3. 新建Python任务对话框中,配置参数。

    image

    参数

    描述

    任务名称

    填写计算任务的名称,例如Python读取文件。

    调度类型

    选择任务的调度类型为周期任务

    选择目录

    默认选择为代码管理

    使用模板

    默认关闭

    Python版本

    选择Python3.7(或更高版本)。

    Python三方包

    选择步骤二安装的openpyxl

    描述

    填写对任务的简单描述。

  4. 单击确定,完成任务创建。

步骤四:编写并运行Python任务代码

  1. 在代码编写页面,编写代码,其中,test.xlsx参数需要替换为您已上传的文件。

    # -*- coding:utf-*-
    
    import os
    import sys
    import openpyxl
    print ('========= python execute ok ==========')
    print("start===============")
    
    @resource_reference{"test.xlsx"}
    
    # 打开excel文件,获取sheet名
    wb = openpyxl.load_workbook("test.xlsx")
    
    #  wb.get_sheet_names 这个方法已过时 会有一个警告
    print(wb.worksheets[0])
  2. 单击页面上方的运行,即可运行任务代码。

    运行结果的状态为SUCCESS,表示读取文件成功。test