MaxFrame API包含两大类,一类是为了方便用户进行数据处理,用于兼容各类标准库(如Pandas)的API,另一类是为了任务的分布式执行而引入的MaxFrame特有API。使用MaxFrame的API开发作业,您可以享受到与标准数据库类似的数据操作体验,并将大规模数据处理任务高效地运行在MaxFrame平台上。
MaxFrame特有API
API类型 | API名称 | 描述 |
任务会话 | MaxFrame作业以会话模式执行,通过在脚本开始位置调用new_session方法初始化整个任务的执行,后续的数据处理会使用初始化构造的Session对象与后端服务进行交互。 | |
IO | 基于整个MaxCompute表、部分分区或部分列的数据构建DataFrame对象。 | |
基于MaxCompute SQL语句的查询结果构建DataFrame对象。 | ||
将DataFrame数据写入MaxCompute表中。 | ||
任务执行 | MaxFrame采用延迟计算模型,只有当调用execute方法时才会触发执行。该接口允许将数据转换操作推迟到流水线末端,使多个操作能够在单个任务中批量执行,并减少客户端与数据库之间的数据传输,以提高性能。 | |
任务结果拉取 | 计算后的结果不会直接传输到客户端,可以减少数据传输量,并减轻客户端压力。为了检查部分结果数据,可在execute后调用fetch方法检索结果数据以便查验。 |
MaxFrame For Pandas
DataFrame
API类型
API详情
Constructor
属性
数学计算
过滤/投影/抽样
排序
连接/合并
用户自定义函数/聚合/窗口
转换
Series
API类型
API详情
Constructor
数学计算
过滤/投影/抽样
排序
用户自定义函数/聚合/窗口
Index
API类型
API详情
Constructor
过滤/投影/抽样
转换
MaxFrame对Pandas API的支持情况
DataFrame
Series
Index
支持了所有参数的API:drop_duplicates
支持了部分参数的API:
astype:暂不支持astype('category')。