MaxCompute提供丰富的内置镜像,如数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等,方便您在后续开发中直接引用,从而简化开发流程。本文为您介绍如何查看及使用内置镜像。
查看内置镜像
登录MaxCompute控制台,在左上角选择地域。
在左侧导航栏选择租户管理 > 镜像管理,进入内置镜像页签,即可查看当前MaxCompute内置的镜像列表及相关版本信息。
内置镜像说明如下:
功能分类 | 镜像名称 | 内置三方包及版本信息 | 编程语言及版本 | 说明 |
基础镜像 | common | numpy==1.21.6 pandas==1.3.5 | Python 3.7 | 基础镜像,包含Pandas、NumPy等基础第三方包。 |
numpy==1.26.4 pandas==2.2.2 | Python 3.11 | |||
科学计算 | scipy | scipy==1.7.3 | Python 3.7 | 科学计算库,提供了众多高级科学计算功能,包括统计分析、线性代数等。 |
scipy==1.13.0 | Python 3.11 | |||
统计建模 | statsmodels | statsmodels==0.13.5 | Python 3.7 | 统计建模 |
statsmodels==0.14.1 | Python 3.11 | 统计建模和经济计量学库。 | ||
机器学习 | sklearn | scikit-learn==1.0.2 | Python 3.7 | 提供分类,回归及聚类等机器学习算法。 |
scikit-learn==1.4.2 | Python 3.11 | |||
xgboost | xgboost==1.6.2 | Python 3.7 | 分布式梯度增强库。 | |
xgboost==2.0.3 | Python 3.11 | |||
pytorch | torch==1.13.1 | Python 3.7 | 自然语言处理。 | |
torch==2.3.0 | Python 3.11 | |||
tensorflow | tensorflow==2.11.0 | Python 3.7 | 应用于各类机器学习算法的编程实现。 | |
tensorflow==2.16.1 | Python 3.11 |
所有内置镜像均携带基础镜像中的numpy、pandas等开发包,除此之外,上述内置镜像还自带常用的基础开发包,包括cloudpickle 2.2.1、pickle 5.0.12、requests 2.31.0及setuptools 68.0.0。
使用内置镜像
您可在MaxCompute SQL UDF、PyODPS或MaxFrame开发中使用内置镜像。
每个开发作业仅可指定一个镜像,否则会造成镜像冲突问题。
调用UDF时,支持在SQL会话(Session)级别使用Flag指定所依赖的镜像,需同时指定Python版本,命令如下:
set odps.sql.python.version=cp37; set odps.session.image = <镜像名称>;
PyODPS开发中,支持使用execute或persist方法的image参数指定已有镜像,具体示例请参见在PyODPS开发中使用镜像。命令如下:
image='<镜像名称>'
说明若您需要在PyODPS中引用镜像进行开发,请升级PyODPS至V0.11.5或以上版本。
MaxFrame开发中,支持在当前作业开发中指定已有镜像,相关参数如下:
config.options.sql.settings = { "odps.session.image": "<镜像名称>" }