PySpark Python环境介绍

EMR DataLake和自定义集群安装的Spark版本对Python环境的依赖各不相同。本文以Python3为例,介绍不同Spark版本所对应的Python版本,以及安装Python第三方库的方法。

Spark版本与Python版本对应关系

EMR版本

Spark版本

Python版本

Python路径

EMR-3.46.0及后续版本、EMR-5.12.0及后续版本

Spark2

python3.6

/bin/python3.6

Spark3

python3.8

/bin/python3.8

EMR-3.43.0~EMR-3.45.1版本、EMR-5.9.0~EMR-5.11.1版本

Spark2

python3.7

/usr/local/bin/python3.7

Spark3

python3.7

/usr/local/bin/python3.7

EMR-3.42.0版本、EMR-5.8.0版本

Spark2

python3.6

/bin/python3.6

Spark3

python3.6

/bin/python3.6

Python第三方库安装

  • 安装pip3.8。

    部分EMR版本(EMR 3.46.0~EMR 3.48.0版本、EMR 5.12.0~EMR 5.14.0版本)未安装pip3.8,需要手动安装。

    sudo yum install -y python38-pip
  • 安装numpy、pandas等Python三方库(以Python 3.8为例)。

    pip3.8 install numpy pandas
  • 如果EMR节点无法访问公网(例如Core或Task节点)或者希望加速安装流程,可使用阿里云PyPI镜像,详情请参见PyPi镜像