本文介绍如何配置Spark Streaming类型的作业。

前提条件

  • 已创建好项目,详情请参见项目管理
  • 已准备好作业所需的资源,以及作业要处理的数据。

操作步骤

  1. 新建作业。
    1. 已通过阿里云账号登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 单击上方的数据开发页签。
    4. 项目列表页面,单击待编辑项目所在行的作业编辑
    5. 作业编辑区域,在需要操作的文件夹上,右键选择新建作业
  2. 配置作业。
    1. 输入作业名称作业描述,在作业类型下拉列表中选择Spark Streaming作业类型。
    2. 单击确定
    3. 作业内容中,填写提交该作业需要提供的命令行参数。
      Spark Streaming作业提交命令的格式。
      spark-submit [options] --class [MainClass] xxx.jar args
      作业名称SlsStreaming为例,作业内容示例如下。
      --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SlsStreaming emr-checklist_2.10-0.1.0.jar <project> <logstore> <accessKey> <secretKey>
      注意
      • 如果作业JAR包保存在OSS中,则引用这个JAR包的方式是ossref://xxx/.../xxx.jar
      • 您可以单击下方的+插入OSS路径,选择文件前缀OSSREF,从文件路径中进行浏览和选择,系统会自动补齐OSS上Spark Streaming脚本的路径。
  3. 单击保存,作业配置即定义完成。

问题反馈

如果您在使用阿里云E-MapReduce过程中有任何疑问,欢迎您扫描下面的二维码加入钉钉群进行反馈。

emr_dingding