若您要使用DataWorks进行CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH)任务的开发、管理,需先将您的CDH集群绑定为DataWorks的CDH计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据同步和开发等操作。
前提条件
DataWorks已创建工作空间,操作者使用的RAM账号已加入工作空间并设置为工作空间管理员角色。
已部署CDH集群。
说明DataWorks支持使用非阿里云ECS环境部署的CDH,但需确保部署CDH的环境和阿里云专有网络可连通。通常您可使用IDC数据源网络连通方式来保障网络的连通性。
已为工作空间绑定资源组,且确保网络连通。
使用Serverless资源组时,只需确保CDH计算资源与Serverless资源组连通性正常即可。
使用旧版独享型资源组时,需确保CDH计算资源与对应场景下的独享调度资源组连通性正常。
使用限制
权限限制:
操作人
具备权限说明
阿里云主账号
无需额外授权。
阿里云RAM账号/RAM角色
仅拥有运维和空间管理员角色的空间成员,或拥有
AliyunDataWorksFullAccess
权限的空间成员可创建计算资源。授权详情请参见授权用户空间管理员权限。
进入计算资源列表页
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
在左侧导航栏单击计算资源,进入计算资源列表页。
绑定CDH计算资源
在计算资源列表页,配置绑定CDH计算资源。
选择绑定计算资源类型。
单击绑定计算资源或新建计算资源,进入绑定计算资源页面。
在绑定计算资源页面选择计算资源类型为CDH,进入绑定CDH计算资源配置页面。
配置CDH计算资源。
在绑定CDH计算资源配置页面,根据下表内容进行相应配置。
参数
配置说明
集群版本
选择注册的集群版本。
DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接选择,该类集群版本配套的组件版本(即集群连接信息中各组件的版本)固定。若该类集群版本不满足您的业务需要,您可选择自定义版本,并按需配置组件版本。
说明不同集群版本需配置的组件存在差异,具体请以实际界面为准。
使用自定义版本集群注册至DataWorks,仅支持使用旧版独享调度资源组,且注册完成后需提交工单联系技术支持人员初始化相关环境。
集群名称
选择其他工作空间中已注册的集群名称来加载相关配置,或者自定义集群名称来填写新配置。
集群连接信息
Hive连接信息
用于提交Hive类作业至集群。
HiveServer2配置格式:
jdbc:hive2://<host>:<port>/<database>
Metastore配置格式:
thrift://<host>:<port>
参数获取方式:获取CDH或CDP集群信息并配置网络连通
组件版本选择:系统会自动识别为当前集群对应组件版本。
Impala连接信息
用于提交Impala作业。
配置格式:
jdbc:impala://<host>:<port>/<schema>
。Spark连接信息
如需在DataWorks中使用Spark组件,您可以在此选择默认版本并进行配置。
Yarn连接信息
任务提交与查看任务详情配置。
Yarn.Resourcemanager.Address配置格式:
http://<host>:<port>
说明Spark或MapReduce任务提交地址。
Jobhistory.Webapp.Address配置格式:
http://<host>:<port2>
说明配置了JobHistory Server的Web UI地址,用户可以通过浏览器访问该地址查看历史任务的详细信息。
MapReduce连接信息
如需在DataWorks中使用MapReduce组件,您可以在此选择默认版本并进行配置。
Presto连接信息
用于提交Presto作业。
JDBC地址信息配置格式:
jdbc:presto://<host>:<port>/<catalog>/<schema>
说明非CDH默认组件,需根据实际情况进行相应配置。
集群配置文件
配置Core-Site文件
包含Hadoop Core库的全局配置。例如,HDFS和MapReduce常用的I/O设置。
运行Spark或MapReduce任务,需上传该文件。
配置Hdfs-Site文件
包含HDFS的相关配置。例如,数据块大小、备份数量、路径名称等。
配置Mapred-Site文件
用于配置MapReduce相关的参数。例如,配置MapReduce作业的执行方式和调度行为。
运行MapReduce任务,需上传该文件。
配置Yarn-Site文件
包含了与YARN守护进程相关的所有配置。例如,资源管理器、节点管理器和应用程序运行时的环境配置。
运行Spark或MapReduce任务,或账号映射类型选择Kerberos时,需上传该文件。
配置Hive-Site文件
包含了用于配置Hive的各项参数。例如,数据库连接信息、Hive Metastore的设置和执行引擎等。
账号映射类型选择Kerberos时,需上传该文件。
配置Spark-Defaults文件
用于指定Spark作业执行时应用的默认配置。您可通过
spark-defaults.conf
文件预先设定一系列参数(例如,内存大小、CPU核数),Spark应用程序在运行时将采用该参数配置。运行Spark任务,需上传该文件。
配置Config.Properties文件
包含Presto服务器的相关配置。例如,设置Presto集群中协调器节点和工作节点的全局属性。
使用Presto组件,且账号映射类型选择OPEN LDAP或Kerberos时,需上传该文件。
配置Presto.Jks文件
用于存储安全证书,包括私钥和颁发给应用程序的公钥证书。在Presto数据库查询引擎中,
presto.jks
文件用于为Presto进程启用SSL/TLS加密通信,确保数据传输的安全。默认访问身份
如您选择使用映射集群账号相关身份,可在计算资源列表页的账号映射页签设置集群身份映射。
开发环境:可选择集群账号,或任务执行者所映射集群账号。
生产环境:可选择使用集群账号,任务责任人所映射集群账号、阿里云主账号所映射集群账号或阿里云子账号所映射集群账号。
计算资源实例名
自定义计算资源实例名。在任务运行时,可根据计算资源名称来选择任务运行的计算资源。
单击确认,完成CDH计算资源配置。
资源组初始化
初次注册集群、集群服务配置变更(例如:修改core-site.xml)请初始化资源组,确保通过配置网络连通,资源组可正常访问CDH集群。
在计算资源列表页,找到您所创建的CDH计算资源。单击右上角的资源组初始化。
在需要的资源组后面单击初始化。资源组初始化成功后,单击确定即可。
(可选)设置YARN资源队列
您可在计算资源列表页找到您所绑定的CDH集群,在YARN 资源队列页签单击编辑YARN 资源队列,在不同模块为任务设置专有的YARN资源队列。
(可选)设置SPARK参数
在不同模块为任务设置专有的SPARK属性参数。
在计算资源列表页找到您所绑定的CDH集群。
单击SPARK 参数页签的编辑SPARK 参数按钮,进入编辑CDH集群的SPARK参数页。
通过单击模块下方的添加按钮,输入Spark属性名称和对应的Spark属性值,设置Spark属性信息。
后续步骤
配置完CDH计算资源后,您可在数据开发中通过CDH相关节点进行数据开发操作。