您可以创建EMR(E-MapReduce) HIVE节点,通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库,完成海量日志数据的分析和开发工作。
前提条件
- 您已创建阿里云EMR集群,且集群所在的安全组中入方向的安全策略包含以下策略。
- 授权策略:允许
- 协议类型:自定义 TCP
- 端口范围:8898/8898
- 授权对象:100.104.0.0/16
- 您在工作空间配置页面添加E-MapReduce计算引擎实例后,当前页面才会显示EMR目录。详情请参见配置工作空间。
- 如果EMR启用了Ranger,则使用DataWorks进行EMR的作业开发前,您需要在EMR中修改配置,添加白名单配置并重启hive,否则会在作业运行时报错Cannot modify spark.yarn.queue at runtime或Cannot modify SKYNET_BIZDATE at runtime。
- 白名单的配置通过EMR的自定义参数,添加key和value进行配置,以Hive组件的配置为例,配置值如下。
hive.security.authorization.sqlstd.confwhitelist.append=tez.*|spark.*|mapred.*|mapreduce.*|ALISA.*|SKYNET.*
说明 其中ALISA.*和SKYNET.*为DataWorks专有的配置。 - 白名单配置完成后需重启服务,使配置生效。重启服务的操作可参见重启服务。
- 白名单的配置通过EMR的自定义参数,添加key和value进行配置,以Hive组件的配置为例,配置值如下。
在文档使用中是否遇到以下问题
更多建议
匿名提交