文档

镜像管理概述

更新时间:

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,同时支持上传自定义镜像,您可在SQL UDF、PyODPS及MaxFrame开发等场景中直接引用已有镜像,无需执行繁琐的资源打包、上传等流程。

背景信息

MaxCompute提供用户自定义函数(UDF)及Python(PyODPS和MaxFrame)开发的能力,您可以通过编写Java或Python UDF函数实现不同的开发需求。实际开发中,通常需要在作业中依赖、引用众多第三方包。您需要准备环境、打包或下载所依赖的第三方包,并将其上传、提交至MaxCompute项目空间,MaxCompute会在安全容器中运行UDF,并将这些依赖挂载到运行容器中作为运行环境的一部分。

在开发过程中可能会遇到以下问题:

  • 当作业有较多外部依赖时,您需要找出作业依赖的所有第三方包,打包并手动上传至MaxCompute项目空间,操作过程复杂、使用成本高。

  • 不同的MaxCompute项目空间可能有相同的第三方包依赖,在不同项目空间中开发时需要分别上传依赖包,造成额外的管理成本及存储开销。

  • 依赖包版本众多、开发环境不统一,不易维护,且容易造成不同环境带来的各类开发冲突问题。

因此,MaxCompute提供了镜像管理功能,允许您使用指定镜像作为作业的运行环境,简化您的SQL UDF及Python开发流程,方便您快速地完成开发,同时提高服务的响应速度和性能。

功能说明

  • 丰富的内置镜像

    内置如Pandas、NumPy、Scikit-learn、Xgboost等各类科学计算、数据分析类镜像,面向数据分析、数据挖掘等场景需求可直接使用,避免了繁琐的环境准备、打包及上传流程。内置镜像相关介绍请参见内置镜像

  • 灵活的自定义镜像

    对于用户自定义镜像支持按需上传并进行统一管理,支持租户内共享,降低了用户管理及资源存储成本,同时避免了由于环境、版本不统一带来的后续开发冲突问题。自定义镜像相关介绍请参见自定义镜像

  • 使用方式高效便捷

    使用SQL调用UDF函数时,直接通过Flag参数方式指定所需镜像,即可在当前作业中生效;使用PyODPS(仅支持V0.11.5及以上版本)、MaxFrame开发时也可通过参数直接指定所需镜像。具体使用请参见场景实践