本文为您介绍Python SDK及其常见方法。

背景信息

PyODPS是MaxCompute的Python SDK,提供DataFrame框架和MaxCompute对象的基本操作方法。您可以通过MaxCompute轻松地分析数据。

PyODPS支持的底层Python版本为Python2(2.6以上版本)和Python3。

获取详细PyODPS信息的方式如下:
您也可以通过如下方式参与PyODPS的生态开发:
  • 编写PyODPS文档:PyODPS
  • 开发PyODPS代码:代码
  • 技术交流:加入钉钉技术交流群11701793。

初始化入口

在使用PyODPS前,您需要用阿里云账号初始化一个MaxCompute的入口,执行命令如下。
from odps import ODPS
odps = ODPS('<your_accesskey_id>', '<your_accesskey_secret>', '<your_default_project>', endpoint='<your_end_point>')
参数说明:
  • your_accesskey_id:具备目标MaxCompute项目中待操作对象相关操作权限的AccessKey ID。您可以进入AccessKey管理页面获取AccessKey ID。
  • your_accesskey_secret:AccessKey ID对应的AccessKey Secret。您可以进入AccessKey管理页面获取AccessKey Secret。
  • your_default_project:使用的MaxCompute项目名称。您可以登录MaxCompute控制台,左上角切换地域后,即可在项目管理页签查看到具体的MaxCompute项目名称。
  • your_end_point:目标MaxCompute项目所在地域的Endpoint。详情请参见Endpoint

方法说明

PyODPS提供MaxCompute对象的基本操作方法,详情如下。
操作类型 方法名称 方法说明
项目 get_project(project_name) 获取MaxCompute项目名称。
exist_project(project_name) 判断某个MaxCompute项目是否存在。
list_tables() 列出MaxCompute项目下的所有表。
exist_table(table_name) 判断表是否存在。
get_table(table_name,project=project_name) 获取指定表。允许跨项目获取表。
create_table() 创建表。
read_table() 读取表数据。
write_table() 写入表数据。
delete_table() 删除已经存在的表。
表分区 exist_partition() 判断分区是否存在。
get_partition() 获取分区。
create_partition() 创建分区。
delete_partition() 删除分区。
SQL execute_sql()/run_sql() 执行SQL语句。
open_reader() 读取执行结果。
任务实例 list_instances() 获取MaxCompute项目下的所有Instance。
exist_instance() 判断Instance是否存在。
get_instance() 获取Instance。
stop_instance() 停止Instance。
资源 create_resource() 创建资源。
open_resource() 打开资源。
get_resource() 获取资源。
list_resources() 列出所有资源。
exist_resource() 判断资源是否存在。
delete_resource() 删除资源。
函数 create_function() 创建函数。
delete_function() 删除函数。
数据上传下载通道 create_upload_session() 创建上传数据会话。
create_download_session() 创建下载数据会话。