本文介绍如何配置Spark SQL类型的作业。

前提条件

已创建好项目,详情请参见项目管理

操作步骤

  1. 新建作业。
    1. 已通过阿里云账号登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 单击上方的数据开发页签。
    4. 项目列表页面,单击待编辑项目所在行的作业编辑
    5. 作业编辑区域,在需要操作的文件夹上,右键选择新建作业
  2. 配置作业。
    1. 输入作业名称作业描述,在作业类型下拉列表中选择Spark SQL作业类型。
      说明 Spark SQL提交作业的模式默认是Yarn-client模式。
      此类型的作业,实际是通过以下方式提交的Spark SQL作业。
      spark-sql [options] [cli options] {SQL_CONTENT}                
      参数描述如下:
      • options: 在作业设置页面的高级设置页签,单击环境变量所在行的add图标,添加环境变量SPARK_CLI_PARAMS,例如SPARK_CLI_PARAMS="--executor-memory 1g --executor-cores"
      • cli options :例如, -e <quoted-query-string> 表示运行引号内的SQL查询语句。-f <filename>表示运行文件中的SQL语句。
      • SQL_CONTENT:填写的SQL语句。
    2. 单击确定
    3. 作业内容中,输入Spark SQL语句。
      示例如下。
      -- SQL语句示例。
      -- SQL语句最大不能超过64KB。
      show databases;
      show tables;
      -- 系统会自动为SELECT语句加上'limit 2000'的限制。
      select * from test1;
  3. 单击保存,作业配置即定义完成。

问题反馈

如果您在使用阿里云E-MapReduce过程中有任何疑问,欢迎您扫描下面的二维码加入钉钉群进行反馈。

emr_dingding