文档

MaxFrame概述

更新时间:

MaxFrame是由阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口且自动进行分布式计算,同时可直接使用MaxCompute计算资源及数据接口,与MaxCompute Notebook、镜像管理等功能共同构成了MaxCompute完整的Python开发生态。您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。

版本说明

  • 当前MaxCompute MaxFrame功能处于邀测阶段,如果您有MaxCompute MaxFrame功能使用需求,可以申请开通MaxFrame,并领取5000CU的免费资源,详情请参见步骤一:申请开通及使用MaxFrame

  • 目前MaxCompute MaxFrame已开通的地域包括:华东2(上海)、华南1(深圳)、西南1(成都),其他地域逐步开放中。

说明

如您有任何问题,可搜索加入MaxCompute MaxFrame功能支持钉钉群(37130012987)获取支持。

背景信息

基于Python语言的易读性、高效开发及开放生态等优势,Python已经成为科学计算、机器学习以及AI开发领域的事实标准和主流编程语言,其整合了数据分析、机器学习等各类第三方包,如Pandas(数据处理与分析)、NumPy(数值计算)、Scikit-learn(机器学习框架)等庞大的标准库和工具包,同时支持TensorFlow、PyTorch、XGBoost、LightGBM等丰富的训练框架。

MaxFrame是阿里云自研的分布式计算框架,结合MaxCompute Notebook、镜像管理等功能提供了一套完整的Python开发生态,让用户可以用更符合Python社群开发习惯的方式使用MaxCompute弹性计算资源及数据接口进行大规模数据处理、分析及数据挖掘的需求。image

核心能力

  • 更熟悉的开发习惯

    • MaxFrame兼容Python开发生态,提供MaxCompute Python生态统一开发接口,可通过一份Python代码实现完整的Data+AI开发流程。

    • MaxFrame可直接引用Numpy、SciPy、Pandas、Matplotlib等第三方库进行科学计算、数据分析、可视化等操作,降低用户操作成本。

  • 更高的处理性能

    • MaxFrame可直连MaxCompute数据,运行时无需将数据拉取至本地计算,消除了不必要的本地数据传输,提高执行效率。

    • MaxFrame可直接使用MaxCompute海量弹性计算资源,并支持自动分布式、并行处理,大幅缩短数据处理的时间。

  • 更便捷的开发体验

    • MaxFrame已与MaxCompute Notebook、DataWorks集成,无需配置环境即可直接使用;同时MaxFrame也支持在用户本地环境安装使用。

    • MaxFrame支持直接引用MaxCompute内置镜像及用户自定义镜像,降低开发环境准备时间,避免环境版本冲突。

  • 更完善的算子支持

    MaxFrame完全兼容Pandas接口且自动进行分布式处理,在保证强大数据处理能力的同时,大幅提高数据处理规模及计算效率。

使用场景

MaxCompute MaxFrame使用场景如下:

  • 熟悉Python开发生态,需要开箱即用的Python开发环境,并快速进行数据科学、大规模数据处理及交互式数据探索等开发。

  • 处理数据量大、处理逻辑复杂,需要基于MaxCompute海量数据及弹性计算资源、MaxFrame分布式能力进行大规模数据分析、处理及数据挖掘,提高开发效率。

  • 面向Data+AI开发,需要依赖第三方或自定义镜像完成数据开发、模型开发等整体流程。

支持的工具

MaxFrame支持在本地环境、DataWorks、MaxCompute Notebooks中使用。详情请参见准备工作

  • 本页导读 (1)
文档反馈