在DataWorks中,您可按照工作空间粒度指定各模块使用的YARN队列,后续各模块将默认使用该队列执行EMR任务。同时,可定义全局YARN资源队列优先级是否高于指定模块内配置的YARN资源队列优先级。本文为您介绍如何设置全局YARN资源队列。
背景信息
YARN是一个分布式的资源管理系统,是Hadoop的核心组件,在Hadoop集群中主要负责资源管理、调度运行及监控作业。关于EMR YARN的详情,请参见YARN调度器。
在DataWorks中,您可通过如下方式配置调度节点运行时使用的YARN资源队列:
- 方式一:配置全局YARN资源队列 - 设置工作空间级别某DataWorks功能模块运行EMR任务时使用哪个YARN资源队列,并定义此处配置的YARN资源队列优先级是否高于指定模块内配置的YARN资源队列。详情请参见设置全局YARN资源队列。 
- 方式二:配置产品模块内YARN队列 - 数据开发(Data Studio):对于Hive和Spark节点,可在节点编辑页面右侧的调度配置中,通过设置DataWorks参数中的 - queue来指定单个节点任务的YARN资源队列。
- 数据质量:可在EMR表的分区规则中,通过运行队列配置单个分区规则的YARN资源队列。详情请参见配置规则:按表(单表)。 
- 其他产品模块:暂不支持在模块内单独设置YARN资源队列。 
 
使用限制
- 仅以下角色可配置YARN资源队列: - 阿里云主账号。 
- 拥有AliyunDataWorksFullAccess权限的子账号(RAM用户)或RAM角色。 
- 拥有空间管理员角色的子账号(RAM用户)。 
 
- 修改YARN全局最大优先级。 - 通过DataWorks的EMR任务修改YARN优先级时,您需同时在EMR集群的 - yarn-site.xml文件中添加配置项- yarn.cluster.max-application-priority,并设置较大的优先级来覆盖默认值- 0,否则DataWorks上配置的EMR任务优先级将不生效。说明- 修改配置后需重启YARN服务,该配置才会生效。 
- 目前仅支持对数据开发(Data Studio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。 
前提条件
已注册EMR集群至DataWorks,详情请参见新版数据开发:绑定EMR计算资源。
设置全局YARN资源队列
- 进入全局YARN资源队列配置页面。 - 进入管理中心页面。 - 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入管理中心。 
- 单击左侧导航栏的计算资源,进入计算资源页面。 
- 找到目标EMR集群,单击YARN资源队列,进入全局YARN资源队列配置页面。  
 
- 设置全局YARN资源队列。 - 单击YARN资源队列页面右上角的编辑YARN资源队列,配置各模块的全局YARN资源队列及队列优先级。 说明- 该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。 - 参数 - 描述 - 资源队列 - 配置各模块运行EMR任务时使用的YARN资源队列。您可进入EMR on ECS控制台获取EMR已创建的资源队列。 - 全局配置是否优先 - 勾选后,表示全局配置将比产品模块内配置优先生效;此时将按照全局配置的YARN资源队列统一运行任务。 - 全局配置:即在的EMR集群YARN资源队列页面配置的YARN资源队列。 说明- 目前仅支持对数据开发(Data Studio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。 
- 产品模块内配置: - 数据开发(Data Studio):对于Hive和Spark节点,可在节点编辑页面右侧的调度配置中,通过设置DataWorks参数中的 - queue来指定单个节点任务的YARN资源队列。
- 数据质量:可在EMR表的分区规则中,通过运行队列配置单个分区规则的YARN资源队列。详情请参见配置规则:按表(单表)。 
- 其他产品模块:暂不支持在模块内单独设置YARN资源队列。