Amazon EMR计算源用于绑定Dataphin项目空间,为Dataphin项目提供处理计算任务的计算源。如果Dataphin系统的计算引擎设置为Amazon EMR,则只有项目空间添加了Amazon EMR计算源,才支持使用计算任务、即席查询、通用脚本等功能。本文为您介绍如何新建Amazon EMR计算源。
前提条件
Dataphin的计算引擎设置为Amazon EMR,详情请参见使用Amazon EMR作为元仓引擎进行元仓初始化。
已创建Amazon EMR集群,详情请参见创建及管理Amazon EMR集群。
操作步骤
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击新增计算源,选择Amazon EMR计算源。
在新建Amazon EMR计算源对话框中,配置以下参数。
参数
描述
计算源基本信息
计算类型
选择为Amazon EMR。
计算源名称
支持中文、英文、数字、下划线(_)和短划线(-),长度不超过64个字符。
配置方式
当前仅支持引用指定集群,支持输入关键字搜索。选择完成后可单击查看,跳转至查看Amazon EMR集群页面,查看集群信息。
计算源描述(非必填)
填写计算源的简单描述,长度不超过128个字符。
计算配置
主节点公有DNS
系统自动从所选Amazon EMR集群中获取,不支持修改。
Database
输入Amazon EMR计算引擎的数据库名称。
Spark SQL
可选择开启或关闭,默认为开启。
说明仅当引用的指定集群开启了Spark SQL时,支持配置此项。
Spark本地客户端
可选择开启或关闭,默认为开启。
说明仅当引用的指定集群开启了Spark SQL,且开启了Spark本地客户端时,支持配置此项。
生产任务默认队列(非必填)
输入yarn资源队列,生产环境中手动及周期性任务运行时将使用该队列。
其他任务队列(非必填)
输入yarn资源队列,其他任务(例如即席查询、数据预览、JDBC Driver访问)运行时将使用该队列。
优先级任务队列
可选择使用生产任务默认队列或自定义。
若选择自定义,则可为每一种优先级指定yarn资源队列。
说明Dataphin在调度Hive SQL任务时会根据任务的优先级将任务发送到相应的队列执行。Hive的执行引擎设置为Tez或Spark时,必须设置不同的优先级队列,任务的优先级设置才可生效。
单击提交。
完成创建Amazon EMR计算源后,即可为项目绑定Amazon EMR计算源,详情请参见。