本文介绍 Spark Streaming作业配置的操作步骤。

前提条件

  • 已创建好项目,详情请参见项目管理
  • 已准备好作业所需的资源,以及作业要处理的数据。

操作步骤

  1. 通过主账号登录阿里云 E-MapReduce 控制台,进入集群列表页面。
  2. 单击上方的数据开发页签,进入项目列表页面。
  3. 单击对应项目右侧的工作流设计,然后在左侧导航栏中单击作业编辑
  4. 作业编辑页面左侧,右键单击作业所属的文件夹并选择新建作业
    说明 通过右键单击文件夹,您还可以进行创建子文件夹、重命名文件夹和删除文件夹操作。
  5. 在弹出的新建作业对话框中,输入作业名称作业描述,并从作业类型列表中选择Spark Streaming
  6. 完成上述参数配置后,单击确定,创建一个作业。
  7. 创建作业完成后,您需要给作业配置内容。

    作业名称以SlsStreaming为例,作业的作业内容示例如下:

    --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SlsStreaming emr-checklist_2.10-0.1.0.jar <project> <logstore> <accessKey> <secretKey>
    注意 如果作业JAR包保存在OSS中,则引用这个JAR包的方式是ossref://xxx/.../xxx.jar。您可以单击选择OSS路径,从OSS中进行浏览和选择,系统会自动补齐OSS上Spark Streaming脚本的绝对路径。请务必将默认的OSS协议切换成ossref协议。

    如果是在E-MapReduce后台的命令行中,Spark Streaming作业提交命令的格式和示例如下:

    • Spark Streaming作业提交命令的格式:
      spark-submit [options] --class [MainClass] xxx.jar args
    • 本例中Spark Streaming作业的提交命令:
      spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SlsStreaming emr-checklist_2.10-0.1.0.jar <project> <logstore> <accessKey> <secretKey>
  8. 完成上述参数配置后,单击保存,Spark Streaming作业即定义完成。