文档

MaxFrame概述

更新时间:

MaxFrame是由阿里云自研的分布式计算框架,提供了一套兼容MaxCompute计算资源及数据接口的Python生态环境。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。

背景信息

为满足用户基于MaxCompute进行大规模数据处理、分析及数据挖掘的需求,MaxCompute提供了一套Python开发生态,通过统一的Python编程接口完成数据分析、处理及挖掘、建模全生命周期。MaxFrame是由阿里云自研的分布式计算框架,提供了一套兼容MaxCompute计算资源及数据接口的Python生态环境,让用户可以用自己更为熟悉、更符合 Python 社群开发习惯的方式使用MaxCompute。

基于MaxFrame,用户可以通过统一的交互式开发环境,MaxCompute统一数据管理能力以及分布式数据开发接口,高效、一站式地完成数据分析、处理以及数据挖掘、建模全生命周期,打破大数据及AI开发使用边界,大大提高开发效率,加速AI创新应用落地。MaxFrame架构图如下所示。

image

MaxCompute MaxFrame预计将于2023年12月正式对外邀测,您可单击申请链接提前进行申请,我们将在邀测开始时立即为您开通,您也可以加入MaxFrame技术支持钉钉群(群号:37130012987)进行咨询。

重要

随着MaxCompute MaxFrame的正式上线发布,将逐步替换PyODPS DataFrame及Mars接口,并在算子兼容性以及分布式能力上有明显提升,强烈建议新用户直接基于MaxFrame进行相关开发工作。

功能介绍

  • 兼容Python开发生态 提供MaxCompute Python生态统一开发接口,通过一份Python Code实现对MaxComopute、OSS数据的统一管理及调用,可直接引用NumPy、SciPy、Pandas、Matplotlib等第三方库进行科学计算、数据分析、可视化等操作,并支持使用MaxCompute资源进行分布式计算。

  • 自动分布式处理 完全兼容Pandas接口且自动进行分布式处理,在保证强大数据处理能力的同时,大幅度提高数据处理规模及计算效率。

  • 底层引擎自动路由 根据用户提交的作业使用场景自动提交至最优的底层引擎执行(例如SQL Engine、Single Python Engine、Mars Engine),您无需再关注底层执行引擎的选择。

使用场景

MaxCompute MaxFrame使用场景如下:

  • 基于MaxCompute上存储的数据及计算资源进行大规模数据分析、处理及数据挖掘。

  • 习惯Python开发生态,需要通过NumPy、Pandas、Matplotlib等进行数据科学、数据处理及可视化分析。

  • 需要分布式运行TensorFlow、PyTorch和XGBoost。

  • 本页导读 (1)
文档反馈