在DataWorks运行EMR(E-MapReduce)作业前,为避免作业运行出错,您需要先检查EMR的DataLake(新版数据湖)集群关键配置是否满足要求。其中,涉及的LDAP、Ranger白名单、安全策略等配置,均是为了在DataWorks运行EMR引擎任务时进行鉴权,在EMR集群认证DataWorks的身份。本文为您介绍DataLake集群的关键配置事项。

使用限制

集群版本必须大于等于3.41.0或5.7.0。若集群版本过低,则无法使用DataWorks相关功能。

DataLake集群配置

  1. 可选:开启LADP。
    若您需要通过安全模式绑定EMR引擎并需要实现用户权限认证,请先在集群开启LDAP。
  2. 开启Ranger的集群添加白名单。
    如果EMR启用了Ranger,则使用DataWorks进行EMR作业开发前,您需要在EMR中添加白名单并重启Hive,否则作业运行时会报错Cannot modify spark.yarn.queue at runtimeCannot modify SKYNET_BIZDATE at runtimeRanger相关内容详情请参见Ranger概述
    1. 配置白名单。
      白名单的配置通过EMR的自定义参数,添加Key和Value进行配置。以Hive组件的配置为例,配置值如下。
      hive.security.authorization.sqlstd.confwhitelist.append=tez.*|spark.*|mapred.*|mapreduce.*|ALISA.*|SKYNET.*
      说明 其中ALISA.*SKYNET.*为DataWorks专有的配置。
    2. 重启服务。

      白名单配置完成后需要重启服务,重启后配置才会生效。重启服务的操作详情请参见重启服务

  3. 修改yarn-site.xml默认优先级。
    如果需要在DataWorks上执行EMR任务时修改任务优先级,您需要在EMR集群的yarn-site.xml文件中添加配置项yarn.cluster.max-application-priority,并设置较大的优先级来覆盖默认值0,否则DataWorks上配置的EMR任务优先级配置将不生效。
    说明 修改该配置后,您需要重启yarn服务,该配置才会生效。