内置镜像

MaxCompute提供丰富的内置镜像,如数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等,方便您在后续开发中直接引用,从而简化开发流程。本文为您介绍如何查看及使用内置镜像。

查看内置镜像

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏选择租户管理 > 镜像管理,进入内置镜像页签,即可查看当前MaxCompute内置的镜像列表及相关版本信息。image

内置镜像说明如下:

功能分类

镜像名称

内置三方包及版本信息

编程语言及版本

说明

基础镜像

common

numpy==1.21.6

pandas==1.3.5

Python 3.7

基础镜像,包含Pandas、NumPy等基础第三方包。

numpy==1.26.4

pandas==2.2.2

Python 3.11

科学计算

scipy

scipy==1.7.3

Python 3.7

科学计算库,提供了众多高级科学计算功能,包括统计分析、线性代数等。

scipy==1.13.0

Python 3.11

统计建模

statsmodels

statsmodels==0.13.5

Python 3.7

统计建模

statsmodels==0.14.1

Python 3.11

统计建模和经济计量学库。

机器学习

sklearn

scikit-learn==1.0.2

Python 3.7

提供分类,回归及聚类等机器学习算法。

scikit-learn==1.4.2

Python 3.11

xgboost

xgboost==1.6.2

Python 3.7

分布式梯度增强库。

xgboost==2.0.3

Python 3.11

pytorch

torch==1.13.1

Python 3.7

自然语言处理。

torch==2.3.0

Python 3.11

tensorflow

tensorflow==2.11.0

Python 3.7

应用于各类机器学习算法的编程实现。

tensorflow==2.16.1

Python 3.11

所有内置镜像均携带基础镜像中的numpy、pandas等开发包,除此之外,上述内置镜像还自带常用的基础开发包,包括cloudpickle 2.2.1、pickle 5.0.12、requests 2.31.0及setuptools 68.0.0。

使用内置镜像

您可在MaxCompute SQL UDF、PyODPS或MaxFrame开发中使用内置镜像。

重要

每个开发作业仅可指定一个镜像,否则会造成镜像冲突问题。

  • 调用UDF时,支持在SQL会话(Session)级别使用Flag指定所依赖的镜像,需同时指定Python版本,命令如下:

    set odps.sql.python.version=cp37;
    set odps.session.image = <镜像名称>;
  • PyODPS开发中,支持使用execute或persist方法的image参数指定已有镜像,具体示例请参见在PyODPS开发中使用镜像。命令如下:

    image='<镜像名称>'
    说明

    若您需要在PyODPS中引用镜像进行开发,请升级PyODPS至V0.11.5或以上版本。

  • MaxFrame开发中,支持在当前作业开发中指定已有镜像,相关参数如下:

    config.options.sql.settings = {
        "odps.session.image": "<镜像名称>"
    }