DataWorks支持基于CDH(Cloudera's Distribution Including Apache Hadoop,以下简称CDH)和CDP(Cloudera Data Platform,以下简称CDP)集群创建Hive、MR、Presto和Impala等节点,实现CDP/CDH任务工作流的配置、定时调度和元数据管理等功能,保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上使用CDP/CDH的基本开发流程,以及相关费用说明、环境准备、权限控制等内容。
背景信息
CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。
CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。
您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。
使用限制
仅支持使用Serverless资源组(推荐)或旧版独享调度资源组运行CDH或CDP集群任务。
说明(推荐)Serverless资源组为通用型资源组,可满足多种任务类型(例如,数据同步、任务调度)的场景应用,购买详情请参见新增和使用Serverless资源组;若您已购买过旧版独享调度资源组,也可使用该资源组运行CDH或CDP集群任务。
新用户仅支持购买Serverless资源组。
若使用自定义版本集群注册至DataWorks,仅支持使用旧版独享调度资源组。集群版本介绍,请参见步骤二:注册CDH或CDP集群。
仅支持华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北3(张家口)、西南1(成都)、德国(法兰克福)地域注册CDH或CDP集群。
前提条件
已开通DataWorks,详情请参见开通DataWorks服务。
已部署并注册CDP或CDH集群。
DataWorks支持使用非阿里云ECS环境部署的CDP或CDH,但需确保部署CDP或CDH的环境和阿里云专有网络可连通。通常您可使用高速通道、VPN等网络连通方案来保障网络的连通性。详情请参见注册CDH或CDP集群至DataWorks。
已购买Serverless资源组。
Serverless资源组购买后,默认与其他云产品网络不连通。在对接使用CDP或CDH时,需先保障CDP或CDH集群和Serverless资源组间网络连通,才可进行后续相关操作。购买资源组,详情请参见新增和使用Serverless资源组。
已创建DataWorks工作空间,详情请参见创建并管理工作空间。
使用说明
DataWorks on CDP/CDH的相关开发说明如下。
序号 | 说明 |
DataWorks上进行CDP或CDH任务开发,除DataWorks侧产品费用外,还会产生其他产品侧的费用。 | |
DataWorks上进行CDP或CDH任务开发前,您需根据业务需求购买相应DataWorks版本及所需资源组,并完成相关CDP或CDH集群注册及开发环境的准备工作。 | |
DataWorks为您提供了产品级与模块级的权限控制,您可根据业务需求对不同用户授权不同权限,实现权限的精细化管理。 | |
DataWorks数据集成提供CDP/CDH Hive数据的读取与写入的能力,并提供离线同步、全增量同步任务等多种数据同步场景。 | |
DataWorks提供数据建模服务,将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化有序的管理。还提供数据开发(DataStudio)功能,用于调度任务的开发,并与运维中心配合使用,进行调度任务的监控运维。 | |
DataWorks数据分析提供CDP及CDH数据分析与服务共享能力。 | |
DataWorks提供CDP及CDH元数据管理与数据治理能力。 | |
DataWorks提供数据服务能力,帮助您统一管理面向内外部的API服务。 | |
DataWorks支持开放能力,帮助您快速实现各类应用系统对接DataWorks,并进行数据流程管控、数据治理和运维,及时响应各应用系统对接DataWorks的业务状态变化。 |
费用说明
一、DataWorks相关费用
以下费用会体现在DataWorks产品相关账单中。DataWorks计费详情请参见DataWorks计费项说明。
费用 | 说明 |
DataWorks版本费用 | 进行任务开发前,您需先开通DataWorks。如果开通的是DataWorks标准版、专业版、企业版,则在开通时需支付相应版本的版本费用。 |
任务调度的调度资源费用 | 任务开发完成后,进行任务调度需使用调度资源。您可使用Serverless资源组(推荐)或旧版独享调度资源组,支付相应资源组费用。 说明 购买的Serverless资源组可满足任务调度、数据同步共同使用。 |
数据同步的同步资源费用 | 运行数据同步任务时,除调度资源外,还需使用数据同步资源。您可使用Serverless资源组(推荐)或旧版独享数据集成资源组,支付相应资源组费用。 |
DataStudio界面使用运行、带参运行功能执行的任务,不会收取调度费用。
没有实际执行成功的任务及空跑的任务不收取调度费用。
您可参考DataWorks调度任务下发逻辑,以辅助了解上述计费说明。
二、非DataWorks相关费用
以下费用不会体现在DataWorks产品相关账单中。
涉及其他产品的费用,收费情况以对应产品的收费逻辑决定,您可查看对应产品的计费文档了解详情。计费详情请参见计费概述。
费用 | 说明 |
数据库费用 | 数据同步时,读写上下游数据库中的数据时,可能会产生数据库费用。 |
计算和存储费用 | 运行计算引擎任务时,可能会产生计算引擎的计算和存储费用。 |
网络服务费用 | 连通DataWorks和其他相关产品的网络环境时,可能会产生网络服务费用。例如,使用高速通道、共享带宽、EIP等产品连通网络时,会产生相应产品的服务费用。 |
环境准备
一、资源准备
类别 | 描述 | 相关文档 |
版本选择 | DataWorks基础版服务可满足CDP或CDH基本的数据上云、数据开发与调度生产、简单的数据治理工作,若需获取更专业的数据治理、数据安全解决方案,可选择相应的标准版、专业版、企业版服务。 | |
资源组选择 | CDP或CDH集群目前支持使用Serverless资源组(推荐)或旧版独享调度资源组。 |
二、开发环境准备
您需先在DataWorks工作空间注册CDP或CDH集群,才可在数据开发(DataStudio)进行数据开发工作,并以工作空间为单位管理空间成员,以便进行协同开发。
类别 | 描述 | 相关文档 |
数据同步环境准备 | 基于集群的Hive组件执行数据同步任务前,需先将该组件创建为相应的DataWorks数据源。 | |
数据开发、数据分析环境准备 | 基于DataWorks进行计算引擎任务周期性调度前,您需先将集群添加至DataWorks。添加后,才可使用该集群进行相关数据开发、数据分析、周期性调度运行任务等操作。 | |
协同开发环境准备 | 为保障RAM用户以工作空间为单位进行协同开发,您需执行如下操作:
|
权限控制
DataWorks为您提供了产品级与模块级的权限控制,您可根据业务需求对不同用户授权不同权限。权限控制相关介绍如下。
一、数据访问权限控制
加入至DataWorks工作空间进行CDP或CDH任务开发的RAM用户,可通过为其配置集群账号映射的方式,使空间成员(RAM用户)拥有该集群映射账号所拥有的权限。集群账号映射,详情请参见设置集群身份映射。
二、功能模块权限控制
进行数据开发前,您可参考为RAM用户授权指引,让其拥有不同的操作权限。权限类型如下:
开始使用
DataWorks为您提供了多个功能模块,您可在数据开发(DataStudio)中进行调度任务的开发,并在开发完成后进入生产运维中心进行调度任务的监控运维。同时,提供了任务开发与发布的流程管控,助力您规范开发操作,保障开发过程的安全性。
一、数据集成
DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力,您需要将Hive或HBase组件创建为DataWorks的Hive或HBase数据源,实现将其他数据源的数据同步至Hive或HBase数据源,或将Hive或HBase数据源的数据同步至其他数据源。同时,可根据需要选择离线同步、全增量同步任务等场景执行相关数据同步操作。详情请参见数据集成。
二、数据建模与开发
模块 | 说明 | 相关文档 |
数据建模 | 数据建模是全链路数据治理的第一步,沉淀阿里巴巴数据中台建模方法论,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让企业内部实现“数同文”的快速理解与流通。 | |
数据开发 | DataWorks将CDP或CDH计算引擎的能力进行了封装,支持您执行CDP或CDH相关的数据同步、数据开发任务。
| |
您可结合DataWorks的通用类型节点和引擎计算节点进行复杂的逻辑处理。 主要节点如下:
| ||
节点任务开发完成后,可根据需要执行如下操作:
| ||
运维中心 | 运维中心是一站式大数据运维、监控平台,支持实时查看任务的运行状态,并为异常任务提供智能诊断、重跑等运维操作。它提供智能基线功能,帮助您解决重要任务产出时间不可控、海量任务监控难等问题,保障任务产出的时效性。 | |
数据质量 | 数据质量针对数据研发的全链路,保障数据可用性。通过对数据质量规则的高效校验,以及与任务调度流程的紧密结合,可以帮助用户第一时间发现质量问题、有效防止数据质量问题扩散,为业务提供高效、可靠、可信赖的数据。 |
三、数据分析
帮助您实现在线SQL分析、业务洞察、编辑和分享数据;并支持将查询结果保存为图表卡片,快速搭建可视化数据报告便于日常汇报。详情请参见数据分析概述。
四、数据治理
CDP/CDH集群注册完成后,DataWorks将自动采集您数据源下的元数据,您可前往数据地图概述进行查看;同时,也可进入数据治理中心概述,查看DataWorks检测的待治理问题,进行相关数据的治理。
模块 | 说明 | 相关文档 |
数据地图 | DataWorks数据地图提供了企业级数据管理平台,能够基于统一元数据的底层建设,提供数据对象的管理和盘点的能力、血缘查看,以及数据对象的快速查找和深度理解的能力。 说明 当前支持CDH Hive、CDH Spark、CDH Spark SQL、CDH Impala节点的表级别和字段级别血缘展示,具体详情,请参见各数据源血缘展示情况说明。 | |
安全中心 数据保护伞 审批中心 | 安全中心、数据保护伞、审批中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。 说明 审批中心不支持对CDH/CDP表自定义审批流程。 | |
数据治理中心 | 数据治理中心针对多个治理领域,通过数据领域规则沉淀、自动识别资产待优化问题项、覆盖事后及事前的治理优化策略等方式帮助用户主动式、体系化完成数据治理工作。 说明 仅支持使用数据治理中心的全局检查项及治理项治理CDH/CDP数据问题,具体请以实际使用为准。 |
五、数据服务
DataWorks数据服务旨在为企业提供全面的数据服务及共享能力,帮助企业统一管理面向内外部的API服务。详情请参见数据服务概述。
六、开放平台
DataWorks支持开放能力,帮助您快速实现各类应用系统对接DataWorks、方便快捷的进行数据流程管控、数据治理和运维,及时响应应用系统对接DataWorks的业务状态变化。
类别 | 描述 | 相关文档 |
OpenAPI | DataWorks开放平台的OpenAPI功能,为您提供开放API能力,通过开放API实现本地服务和DataWorks服务的交互,提升企业大数据处理效率,减少人工操作和运维工作,降低数据风险和企业成本。 | |
开放事件 | DataWorks开放平台的开放事件(OpenEvent)功能,为您提供消息订阅服务,通过订阅DataWorks事件状态、应用系统对接DataWorks、实时获取相关内容的状态变化,帮助您及时响应相应事件,满足个性化决策需求。 | |
扩展程序 | DataWorks通过OpenEvent为您提供消息推送订阅功能,您可将服务程序注册为DataWorks的扩展程序,通过扩展程序来卡点并响应订阅的事件消息,实现通过扩展程序对特定事件进行消息通知与流程管控。 |