本文介绍如何配置Spark SQL类型的作业。

前提条件

已创建好项目,详情请参见项目管理

背景信息

说明 Spark SQL提交作业的模式默认是yarn-client模式。

操作步骤

  1. 通过主账号登录阿里云E-MapReduce控制台
  2. 单击上方的数据开发页签。
  3. 项目列表页面,单击对应项目所在行的作业编辑
  4. 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业
    说明 您还可以通过在文件夹上单击右键,进行新建子文件夹、重命名文件夹和删除文件夹操作。
  5. 输入作业名称作业描述,选择Spark SQL作业类型。
    表示创建的作业是一个Spark SQL作业。这种类型的作业,其运行实际是通过以下方式提交的Spark SQL作业。
    spark-sql [options] [cli option]spark-sql [options] -e {SQL_CONTENT}                    
    • options: 通过单击作业设置 > 高级设置环境变量所在行的add,来添加SPARK_CLI_PARAMS, 如SPARK_CLI_PARAMS="--executor-memory 1g --executor-cores
    • SQL_CONTENT:作业编辑器中填写的SQL语句。
  6. 单击确定
  7. 作业内容中,输入Spark SQL语句。

    示例如下:

    -- SQL语句示例
    -- SQL语句最大不能超过64KB
    show databases;
    show tables;
    -- 系统会自动为SELECT语句加上'limit 2000'的限制
    select * from test1;
  8. 单击保存,作业配置即定义完成。

问题反馈

如果您在使用阿里云E-MapReduce过程中有任何疑问,欢迎您扫描下面的二维码加入钉钉群进行反馈。

emr_dingding