新版数据开发:绑定CDH计算资源

若您要使用DataWorks进行CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH)任务的开发、管理,需先将您的CDH集群绑定为DataWorksCDH计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据同步和开发等操作。

前提条件

  • DataWorks创建工作空间,操作者使用的RAM账号已加入工作空间并设置为工作空间管理员角色。

  • 已部署CDH集群。

    说明

    DataWorks支持使用非阿里云ECS环境部署的CDH,但需确保部署CDH的环境和阿里云专有网络可连通。通常您可使用IDC数据源网络连通方式来保障网络的连通性。

  • 已为工作空间绑定资源组,且确保网络连通。

使用限制

  • 权限限制

    操作人

    具备权限说明

    阿里云主账号

    无需额外授权。

    阿里云RAM账号/RAM角色

    • 仅拥有运维空间管理员角色的空间成员,或拥有AliyunDataWorksFullAccess权限的空间成员可创建计算资源。授权详情请参见授权用户空间管理员权限

进入计算资源列表页

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  2. 在左侧导航栏单击计算资源,进入计算资源列表页。

绑定CDH计算资源

计算资源列表页,配置绑定CDH计算资源。

  1. 选择绑定计算资源类型。

    1. 单击绑定计算资源新建计算资源,进入绑定计算资源页面。

    2. 绑定计算资源页面选择计算资源类型为CDH,进入绑定CDH计算资源配置页面。

  2. 配置CDH计算资源。

    绑定CDH计算资源配置页面,根据下表内容进行相应配置。

    参数

    配置说明

    集群版本

    选择注册的集群版本。

    DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接选择,该类集群版本配套的组件版本(即集群连接信息中各组件的版本)固定。若该类集群版本不满足您的业务需要,您可选择自定义版本,并按需配置组件版本。

    说明
    • 不同集群版本需配置的组件存在差异,具体请以实际界面为准。

    • 使用自定义版本集群注册至DataWorks,仅支持使用旧版独享调度资源组,且注册完成后需提交工单联系技术支持人员初始化相关环境。

    集群名称

    选择其他工作空间中已注册的集群名称来加载相关配置,或者自定义集群名称来填写新配置。

    集群连接信息

    Hive连接信息

    用于提交Hive类作业至集群。

    • HiveServer2配置格式jdbc:hive2://<host>:<port>/<database>

    • Metastore配置格式:thrift://<host>:<port>

    参数获取方式获取CDHCDP集群信息并配置网络连通

    组件版本选择:系统会自动识别为当前集群对应组件版本。

    说明

    如果使用Serverless资源组通过域名访问CDH相关组件,则需要在云解析DNS内网DNS解析 (PrivateZone)中对CDH组件域名进行权威解析设置域名生效范围

    Impala连接信息

    用于提交Impala作业。

    配置格式jdbc:impala://<host>:<port>/<schema>

    Spark连接信息

    如需在DataWorks中使用Spark组件,您可以在此选择默认版本并进行配置。

    Yarn连接信息

    任务提交与查看任务详情配置。

    • Yarn.Resourcemanager.Address配置格式http://<host>:<port>

      说明

      SparkMapReduce任务提交地址。

    • Jobhistory.Webapp.Address配置格式http://<host>:<port2>

      说明

      配置了JobHistory ServerWeb UI地址,用户可以通过浏览器访问该地址查看历史任务的详细信息。

    MapReduce连接信息

    如需在DataWorks中使用MapReduce组件,您可以在此选择默认版本并进行配置。

    Presto连接信息

    用于提交Presto作业。

    JDBC地址信息配置格式jdbc:presto://<host>:<port>/<catalog>/<schema>

    说明

    CDH默认组件,需根据实际情况进行相应配置。

    集群配置文件

    配置Core-Site文件

    包含Hadoop Core库的全局配置。例如,HDFSMapReduce常用的I/O设置。

    运行SparkMapReduce任务,需上传该文件。

    配置Hdfs-Site文件

    包含HDFS的相关配置。例如,数据块大小、备份数量、路径名称等。

    配置Mapred-Site文件

    用于配置MapReduce相关的参数。例如,配置MapReduce作业的执行方式和调度行为。

    运行MapReduce任务,需上传该文件。

    配置Yarn-Site文件

    包含了与YARN守护进程相关的所有配置。例如,资源管理器、节点管理器和应用程序运行时的环境配置。

    运行SparkMapReduce任务,或账号映射类型选择Kerberos时,需上传该文件。

    配置Hive-Site文件

    包含了用于配置Hive的各项参数。例如,数据库连接信息、Hive Metastore的设置和执行引擎等。

    账号映射类型选择Kerberos时,需上传该文件。

    配置Spark-Defaults文件

    用于指定Spark作业执行时应用的默认配置。您可通过 spark-defaults.conf 文件预先设定一系列参数(例如,内存大小、CPU核数),Spark应用程序在运行时将采用该参数配置。

    运行Spark任务,需上传该文件。

    配置Config.Properties文件

    包含Presto服务器的相关配置。例如,设置Presto集群中协调器节点和工作节点的全局属性。

    使用Presto组件,且账号映射类型选择OPEN LDAPKerberos时,需上传该文件。

    配置Presto.Jks文件

    用于存储安全证书,包括私钥和颁发给应用程序的公钥证书。在Presto数据库查询引擎中,presto.jks 文件用于为Presto进程启用SSL/TLS加密通信,确保数据传输的安全。

    默认访问身份

    如您选择使用映射集群账号相关身份,可在计算资源列表页的账号映射页签设置集群身份映射

    • 开发环境:可选择集群账号,或任务执行者所映射集群账号

    • 生产环境:可选择使用集群账号任务责任人所映射集群账号阿里云主账号所映射集群账号阿里云子账号所映射集群账号

    计算资源实例名

    自定义计算资源实例名。在任务运行时,可根据计算资源名称来选择任务运行的计算资源。

  3. 单击确认,完成CDH计算资源配置。

资源组初始化

初次注册集群、集群服务配置变更(例如:修改core-site.xml)请初始化资源组,确保通过配置网络连通,资源组可正常访问CDH集群。

  1. 计算资源列表页,找到您所创建的CDH计算资源。单击右上角的资源组初始化

  2. 在需要的资源组后面单击初始化。资源组初始化成功后,单击确定即可。

(可选)设置YARN资源队列

可在计算资源列表页找到您所绑定的CDH集群,在YARN 资源队列页签单击编辑YARN 资源队列,在不同模块为任务设置专有的YARN资源队列。

(可选)设置SPARK参数

在不同模块为任务设置专有的SPARK属性参数。

  1. 计算资源列表页找到您所绑定的CDH集群。

  2. 单击SPARK 参数页签的编辑SPARK 参数按钮,进入编辑CDH集群的SPARK参数页。

  3. 通过单击模块下方的添加按钮,输入Spark属性名称和对应的Spark属性值,设置Spark属性信息

后续步骤

配置完CDH计算资源后,您可在数据开发中通过CDH相关节点进行数据开发操作。