EMR DataLake和自定义集群安装的Spark版本对Python环境的依赖各不相同。本文以Python3为例,介绍不同Spark版本所对应的Python版本,以及安装Python第三方库的方法。
Spark版本与Python版本对应关系
EMR版本 | Spark版本 | Python版本 | Python路径 |
EMR-3.46.0及后续版本、EMR-5.12.0及后续版本 | Spark2 | python3.6 | /bin/python3.6 |
Spark3 | python3.8 | /bin/python3.8 | |
EMR-3.43.0~EMR-3.45.1版本、EMR-5.9.0~EMR-5.11.1版本 | Spark2 | python3.7 | /usr/local/bin/python3.7 |
Spark3 | python3.7 | /usr/local/bin/python3.7 | |
EMR-3.42.0版本、EMR-5.8.0版本 | Spark2 | python3.6 | /bin/python3.6 |
Spark3 | python3.6 | /bin/python3.6 |
Python第三方库安装
安装pip3.8。
部分EMR版本(EMR 3.46.0~EMR 3.48.0版本、EMR 5.12.0~EMR 5.14.0版本)未安装pip3.8,需要手动安装。
sudo yum install -y python38-pip
安装numpy、pandas等Python三方库(以Python 3.8为例)。
pip3.8 install numpy pandas
如果EMR节点无法访问公网(例如Core或Task节点)或者希望加速安装流程,可使用阿里云PyPI镜像,详情请参见PyPi镜像。
文档内容是否对您有帮助?