本文汇总了Spark使用时的常见问题。

如何指定PySpark使用Python 3版本?

E-MapReduce中的PySpark默认为Python 2版本,本文以EMR-3.35版本为例,为您介绍如何指定PySpark使用Python 3版本。

您可以通过以下两种方式修改Python的版本:
  • 临时生效方式
    1. 通过SSH方式登录集群,详情请参见登录集群
    2. 执行以下命令,修改Python的版本。
      export PYSPARK_PYTHON=/usr/bin/python3
    3. 执行以下命令,查看Python的版本。
      pyspark
      当返回信息中包含如下信息时,表示已修改Python版本为Python 3。
      Using Python version 3.6.8 (default, Apr 20 2020 14:49:33)
  • 永久生效方式
    注意 此方式的修改是全局性的,可能会导致集群出现异常,因此请谨慎操作。
    1. 通过SSH方式登录集群,详情请参见登录集群
    2. 修改配置文件。
      1. 执行以下命令,打开文件profile
        vi /etc/profile
      2. 按下i键进入编辑模式。
      3. profile文件末尾添加以下信息,以修改Python的版本。
        export PYSPARK_PYTHON=/usr/bin/python3
        export
      4. 按下Esc键退出编辑模式,输入:wq保存并关闭文件。
    3. 执行以下命令,重新执行刚修改的配置文件,使之立即生效。
      source /etc/profile
    4. 执行以下命令,查看Python的版本。
      pyspark
      当返回信息中包含如下信息时,表示已修改Python版本为Python 3。
      Using Python version 3.6.8 (default, Apr 20 2020 14:49:33)