本文为您介绍使用Python脚本读取已上传的资源文件(如.xlsx、.csv等),并通过pip安装第三方库(如openpyxl)实现文件解析。
前提条件
添加访问地址mirrors.aliyun.com和端口*至项目空间的沙箱白名单,详情请参见通过客户端、命令行连接RDS MySQL实例。
已准备Python支持读取的文件,例如TXT、CSV、XLS、XLSX或PDF等格式文件。
步骤一:上传文件
在Dataphin首页的顶部菜单栏,选择研发 > 数据研发。
在左侧导航栏选择数据处理 > 资源,在资源页面,单击
图标。在新建资源对话框中,配置参数。

参数
描述
类型
选择others。
名称
上传文件的名称需要以文件类型结尾。例如test.xlsx。
描述
填写资源的描述。
上传文件
选择本地的文件,例如test.xlsx。
计算类型
选择无归属引擎。
重要文件资源存储至Dataphin系统,因此仅支持选择无归属引擎。
选择目录
默认为资源管理。
单击提交,完成资源的提交。
在提交备注对话框,填写备注信息后,单击确定并提交。
步骤二:安装Python三方包
在Dataphin首页的顶部菜单栏,选择管理中心 > 系统设置。
在左侧导航栏选择三方库管理 > Python三方包,在Python Module页签,单击安装Python Module按钮。
在安装Python Module对话框中,配置参数。

参数
描述
Module名称
填写Python Module的名称。例如openpyxl。
Module版本
输入Module版本。例如1.0.0。
Python版本
选择Python版本。选择Python 3.7。
安装方式
选择在线安装。
单击确定,即可完成安装Python Module操作。
步骤三:创建Python任务
在左侧导航栏选择数据处理 > 计算任务。
在计算任务页面,单击
图标,选择Python。在新建Python任务对话框中,配置参数。

参数
描述
任务名称
填写计算任务的名称,例如Python读取文件。
调度类型
选择任务的调度类型为周期任务。
选择目录
默认选择为代码管理。
使用模板
默认关闭。
Python版本
选择Python3.7(或更高版本)。
Python三方包
选择步骤二安装的openpyxl。
描述
填写对任务的简单描述。
单击确定,完成任务创建。
步骤四:编写并运行Python任务代码
在代码编写页面,编写代码,其中,
test.xlsx参数需要替换为您已上传的文件。# -*- coding:utf-*- import os import sys import openpyxl print ('========= python execute ok ==========') print("start===============") @resource_reference{"test.xlsx"} # 打开excel文件,获取sheet名 wb = openpyxl.load_workbook("test.xlsx") # wb.get_sheet_names 这个方法已过时 会有一个警告 print(wb.worksheets[0])单击页面上方的运行,即可运行任务代码。
运行结果的状态为SUCCESS,表示读取文件成功。

