MaxFrame API概览

MaxFrame API包含两大类,一类是为了方便用户进行数据处理,用于兼容各类标准库(如Pandas)的API,另一类是为了任务的分布式执行而引入的MaxFrame特有API。使用MaxFrame的API开发作业,您可以享受到与标准数据库类似的数据操作体验,并将大规模数据处理任务高效地运行在MaxFrame平台上。

MaxFrame特有API

API类型

API名称

描述

任务会话

new_session

MaxFrame作业以会话模式执行,通过在脚本开始位置调用new_session方法初始化整个任务的执行,后续的数据处理会使用初始化构造的Session对象与后端服务进行交互。

IO

read_odps_table

基于整个MaxCompute表、部分分区或部分列的数据构建DataFrame对象。

read_odps_query

基于MaxCompute SQL语句的查询结果构建DataFrame对象。

to_odps_table

将DataFrame数据写入MaxCompute表中。

任务执行

execute

MaxFrame采用延迟计算模型,只有当调用execute方法时才会触发执行。该接口允许将数据转换操作推迟到流水线末端,使多个操作能够在单个任务中批量执行,并减少客户端与数据库之间的数据传输,以提高性能。

任务结果拉取

fetch

计算后的结果不会直接传输到客户端,可以减少数据传输量,并减轻客户端压力。为了检查部分结果数据,可在execute后调用fetch方法检索结果数据以便查验。

MaxFrame For Pandas

MaxFrame对Pandas API的支持情况