文档

MaxFrame概述

更新时间:

MaxFrame是由阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口且自动进行分布式计算。您可利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。

背景信息

在当今数据驱动时代,大数据处理和人工智能(AI)技术的高效应用成为了企业和研究机构不可或缺的一部分。Python凭借其丰富的第三方开发生态(例如NumPy、Pandas和Scikit-learn)在数据科学领域内提供了强大的支持,但这些工具往往受限于单机或单核计算能力,难以满足分布式大数据处理的需求。

为满足用户在Python生态中日益增长的高效大数据处理和AI开发需求,MaxCompute提供了基于Python编程接口的分布式计算框架MaxFrame,可直接使用云原生大数据服务MaxCompute海量计算资源进行分布式执行,同时与MaxCompute Notebook、镜像管理等功能共同构成了MaxCompute Python开发生态。

MaxFrame简介

MaxFrame分布式计算框架,支持Python编程接口,并能直接利用MaxCompute的计算资源和数据接口,使得Python开发者可以更加高效、便捷地进行大规模数据处理和AI模型开发。MaxFrame不仅完全兼容Pandas接口,且自动实现分布式处理,您能够以更熟悉、高效的方式利用MaxCompute海量计算资源及数据完成数据处理、可视化探索、科学计算及ML/AI开发工作。架构图如下:image

特点优势

  • 更熟悉的开发习惯

    MaxFrame提供Python编程接口,百分百兼容Pandas算子,且算子提交至MaxCompute自动分布式执行,不再受本地资源大小限制。

  • 更高效的数据处理能力

    MaxFrame直接在MaxCompute集群中进行数据分布式计算,运行时无需将数据拉取至本地处理,消除了不必要的本地数据传输,提高作业执行效率。

  • 更便捷的开发体验

    MaxFrame已与MaxCompute Notebook、DataWorks集成,提供开箱即用的交互式开发环境及离线调度能力;MaxFrame支持在代码开发中直接引用MaxCompute内置镜像(Pandas、Numpy、XGBoost等)及用户自定义镜像,且支持Python3.7和Python3.11版本,无需考虑复杂的环境准备及兼容问题。

适用场景

MaxCompute MaxFrame使用场景如下:

  • Python生态开发:对于需要开箱即用的Python环境,并迅速进行数据处理、数据科学和交互式数据探索的开发人员而言,MaxFrame提供了一个理想的解决方案。

  • 大规模数据分析与处理:当数据量庞大、处理逻辑复杂时,MaxFrame借助MaxCompute海量数据和计算资源的分布式能力,显著提高数据分析、处理及数据挖掘的开发效率。

  • Data+AI开发:对于整个分布式数据开发和模型开发过程依赖于第三方或自定义镜像的场景,MaxFrame提供完整的支持,以满足从数据处理到AI模型训练与部署的需要。

支持的工具

MaxFrame支持在本地环境、DataWorks中使用。详情请参见准备工作

技术支持

若您在使用MaxFrame的过程中有任何问题,可使用钉钉扫描如下二维码加入MaxFrame官方用户支持群,MaxFrame团队将全力为您提供技术支持。image