为保证您可以顺利完成本次教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。
前提条件
操作流程
执行本次实验,您需要完成如下环境准备操作:- 创建并配置EMR集群
EMR的DataLake(新版数据湖)集群提供了更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。此次实验您需要创建EMR的DataLake类型集群,并完成DataWorks On EMR开发任务所需的DataLake集群配置。详情请参见创建EMR集群。
- 创建DataWorks工作空间
工作空间为DataWorks支持的最大业务划分粒度,执行本实验前您需要先创建DataWorks工作空间。详情请参见创建DataWorks工作空间。
- 配置DataWorks on EMR开发环境在DataWorks上运行EMR作业前,需要在DataWorks上进行资源组购买、添加工作空间成员、绑定EMR引擎等相关配置,确保EMR作业顺利执行。详情请参见配置DataWorks on EMR开发环境。说明 工作空间创建完成后,您需要绑定EMR引擎后才能执行EMR任务。
- 创建Bucket
创建Bucket,用于存储EMR元数据和运行EMR任务所需的IAR资源。详情请参见创建Bucket。
创建EMR集群
说明 对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践。
- 创建EMR集群。
- 配置集群信息。创建集群时,您需要对集群进行软件配置、硬件配置、基础配置和确认订单。说明 集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
创建DataWorks工作空间
说明 因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
- 登录DataWorks控制台。
- 单击左侧导航栏的工作空间列表。
- 选择工作空间所在地域后,单击创建工作空间。
- 配置工作空间信息。
配置DataWorks on EMR开发环境
在DataWorks上运行EMR作业前,您需要配置如下开发环境。产品 | 配置说明 | 参考链接 |
---|---|---|
EMR侧 | 在DataWorks运行EMR(E-MapReduce)作业前,为避免作业运行出错,您需要先检查EMR的DataLake(新版数据湖)集群关于鉴权等关键配置是否满足要求。 | DataLake集群配置 |
DataWorks侧 |
| DataWorks配置 |
创建Bucket
- 登录OSS控制台。
- 在左侧导航栏,单击Bucket列表。
- 在Bucket列表页面,单击创建Bucket。
- 在创建Bucket对话框中,配置各项参数,单击确定。
- 单击相应的Bucket名称,进入Bucket的文件管理页面。
- 在新建目录对话框中,输入目录名,单击确定。说明 此处需要新建三个目录,分别存放同步过来的外部OSS数据源、RDS数据源和JAR资源。