文档

PySpark任务快速入门

更新时间:

您可以自行编写并构建包含业务逻辑的Python脚本,上传该脚本后,即可便捷地创建和执行PySpark任务。本文通过一个示例,为您演示如何进行PySpark任务的开发与部署。

前提条件

操作步骤

步骤一:准备测试文件

在EMR Serverless Spark中,不直接提供Python的开发环境,因此需要您在本地或独立的开发平台上完成Python文件的开发。本快速入门为了带您快速熟悉PySpark任务,为您提供了测试文件,您可以直接下载待后续步骤使用。

单击DataFrame.pyemployee.csv,直接下载测试文件。

说明
  • DataFrame.py文件是一段使用Apache Spark框架进行OSS上数据处理的代码。

  • employee.csv文件中定义了一个包含员工姓名、部门和薪水的数据列表。

步骤二:上传测试文件

  1. 上传Python文件到EMR Serverless Spark。

    1. 进入任务开发页面。

      1. 登录E-MapReduce控制台

      2. 在左侧导航栏,选择EMR Serverless > Spark

      3. Spark页面,单击目标工作空间名称。

      4. 在EMR Serverless Spark页面,单击左侧导航栏中的资源上传

    2. 资源上传页面,单击上传文件

    3. 上传文件对话框中,单击待上传文件区域选择Python文件,或者直接拖拽Python文件到待上传文件区域。

      本文示例是上传DataFrame.py。

  2. 上传数据文件(employee.csv)到阿里云对象存储OSS控制台,详情请参见文件上传

步骤三:开发并运行任务

  1. 在EMR Serverless Spark页面,单击左侧的任务开发

  2. 单击新建

  3. 输入任务名称,新建一个Application > PySpark类型的任务,单击确定

  4. 在右上角选择开启Session的队列。

    添加队列的具体操作,请参见管理资源队列

  5. 在新建的任务开发中,配置以下信息,其余参数无需配置,然后单击运行

    参数

    说明

    文件路径

    选择前一个步骤中上传的Python文件。本文示例是DataFrame.py。

    运行参数

    填写数据文件(employee.csv)上传到OSS的路径。例如,oss://<yourBucketName>/employee.csv。

  6. 运行任务后,在下方的运行记录区域,单击任务操作列的详情

  7. 任务列表中的开发任务页面,您可以查看相关的日志信息。

    image

步骤四:发布任务

重要

已发布的任务可以作为工作流节点的任务。

  1. 任务运行完成后,单击右侧的发布

  2. 在任务发布对话框中,可以输入发布信息,然后单击确定

步骤五:查看Spark UI

任务正常运行后,您可以在Spark UI上查看任务的运行情况。

  1. 在左侧导航栏,单击任务列表

  2. 单击开发任务

  3. 开发任务页面,单击目标任务操作列的详情

  4. 任务总览页签,单击Spark UI。

    image

  5. 将自动打开Spark UI页面,可查看任务详情。

相关文档

任务发布完成后,您可以在工作流调度中使用,详情请参见管理工作流。任务编排完整的开发流程示例,请参见SQL任务快速入门

  • 本页导读
文档反馈