全部产品
云市场
云游戏

快速开始

更新时间:2020-07-07 14:25:48

本文以运行spark python pi example作业为例,介绍如何在Spark集群中运行作业。

步骤一:添加资源

Spark集群创建成功,且状态为运行中时,您需要将集群运行作业时所需的代码、脚本、Jar包等资源上传到集群中。

  1. 登录Data Lake Analytics管理控制台

  2. 在页面左上角,选择DLA所在地域。

  3. 单击左侧导航栏中的独享版 Spark > 数据工作台 > 资源管理

  4. 资源管理页面,单击上传资源

  5. 上传文件页面,将需要上传的pi.py文件拖拽到上传文件区域。

    上传文件

步骤二:创建作业

Spark集群中以作业为单位,运行实际业务。

  1. 登录Data Lake Analytics管理控制台

  2. 在页面左上角,选择DLA所在地域。

  3. 单击左侧导航栏中的独享版 Spark > 数据工作台 > 作业管理

  4. 作业管理页面,单击创建作业

  5. 新建作业页面,按照页面提示进行参数配置。

    新建作业

    参数 说明
    作业名称 设置Spark作业的名称。
    作业描述 为便于管理,可以为作业添加有意义的描述。
    执行集群 设置作业运行的实际集群。
    最大重置次数 当作业运行失败时,设置重试的最大次数。
    作业类型 支持两种作业类型:SparkJob、SparkSQL。
    告警设置 设置当作业运行成功或者失败时,系统是否发出通知。
  6. 完成上述参数配置后,单击确定创建作业。

  7. 在编辑器中输入作业内容,本示例中输入作业内容/pi.py,单击保存

    输入作业内容

步骤三:运行作业

  1. 登录Data Lake Analytics管理控制台

  2. 在页面左上角,选择DLA所在地域。

  3. 单击左侧导航栏中的独享版 Spark > 数据工作台 > 作业管理

  4. 作业管理页面,单击待运行的作业,本示例为spark python pi example,然后单击运行

  5. 运行作业对话框中,设置执行作业的集群,然后单击确定运行作业。

    运行作业1 运行作业2

步骤四:查看运行结果

独享版Spark服务支持通过YarnUI、SparkUI查看Spark任务的执行情况,使用YarnUI、SparkUI之前需要完成以下准备工作:

  1. 登录Data Lake Analytics管理控制台

  2. 在页面左上角,选择DLA所在地域。

  3. 单击左侧导航栏中的独享版 Spark > 数据工作台 > 作业管理

  4. 在作业运行列表中,单击目标作业右侧的SparkUI,在SparkUI页面查看作业详情。

    sparkui