本文以EMR Hive单表离线同步写入MaxCompute场景为例,为您介绍OSS离线同步在数据源配置、网络连通、同步任务配置方面的最佳实践。
背景信息
Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。数据集成支持从Hive同步数据到其他目标端,也支持从其他目标端同步数据到Hive。
前提条件
使用限制
暂不支持将源端数据同步至MaxCompute外部表。
操作步骤
本文以数据开发(Data Studio)(新版)界面操作为例,演示离线同步任务配置。
一、创建离线同步节点
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的 ,进入Data Studio。
在左侧导航栏单击
,然后单击项目目录右侧的
,选择 ,自定义离线同步任务节点名称后,单击确认。
二、网络与资源配置
在网络与资源配置步骤,选择同步任务所使用的数据来源、资源组、数据去向。您可以为该任务分配任务资源占用CU数。
数据来源选择已添加的
Hive
数据源。数据去向选择已添加的
MaxCompute
数据源。资源组选择已与
Hive
和MaxCompute
数据源连通的资源组。您可以为该任务分配任务资源占用CU数。
在数据来源和数据去向卡片中单击测试连通性。
确保数据来源与数据去向均连通成功后,单击下一步。
三、配置数据来源与去向
配置数据来源(Hive)参数
本文档将Hive数据单表离线同步至MaxCompute,数据来源为Hive表,配置要点如下。
配置项 | 配置要点 |
数据源 | 默认显示上一步选择的Hive数据源。 |
读取Hive方法 |
说明 HDFS方式效率更高,JDBC方式会生成MapReduce程序,同步效率较低。注意HDFS方式同步不支持配置条件过滤、不支持读取视图(VIEW)表,您可以根据自身需求选择相应的同步方式。 |
表 | 选择待同步的Hive表。建议对于要进行数据同步的表,Hive数据源开发和生产环境保证具有相同的表结构。 说明 此处会展示Hive数据源开发环境地的表列表和表结构,如果您的Hive数据源开发和生产环境的表定义不同,则可能出现任务在开发环境配置正常但提交生产运行后报错表不存在、列不存在的问题。 |
parquet schema | 如果Hive表存储格式为parquet格式,需要配置对应的parquet schema。 |
配置数据去向(MaxCompute)参数
本文档将Hive数据单表离线同步至MaxCompute,数据去向为表,配置要点如下。
下表中未说明参数保持默认即可。
配置项 | 配置要点 |
数据源 | 默认显示上一步选择的MaxCompute数据源。如果您使用的是标准模式的DataWorks工作空间,会分别显示开发和生产项目的名称。 |
表 | 选择待同步的MaxCompute表。如果您使用的是标准类型的DataWorks工作空间,请确保在MaxCompute的开发环境和生产环境中存在同名且表结构一致的MaxCompute表。 您也可以单击意见生成目标表结构,系统将自动创建表接收数据,支持手动调整建表语句。 说明 如果:
|
分区信息 | 如果表为分区表,您可以填入分区列的取值。
|
四、配置字段映射
选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系。您可以选择同名映射、同行映射、取消映射或手动编辑映射关系。
五、配置通道控制
离线同步任务支持设置任务期望最大并发数、脏数据策略等。本教程脏数据策略配置为不容忍脏数据,其他配置保持默认。更多信息,请参见通过向导模式配置离线同步任务。
六、调试配置并运行
单击离线同步节点编辑页面右侧的调试配置,设置调试运行使用的资源组和脚本参数,然后单击顶部工具栏的运行,测试同步链路是否成功运行。
您可以在左侧导航栏单击
,然后单击个人目录右侧的
,创建一个后缀为
.sql
的文件,执行如下SQL查询数据去向表中的数据是否符合预期。说明此方式查询需要将目标端MaxCompute绑定为DataWorks的计算资源。
您需要在
.sql
文件编辑页面右侧单击调试配置,指定数据源类型、计算资源、资源组后,再单击顶部工具栏的运行。
SELECT * FROM <MaxCompute侧目标表名> WHERE pt=<指定分区> LIMIT 20;
七、调度配置与发布
单击离线同步任务右侧的调度配置,设置周期运行所需的调度配置参数后,单击顶部工具栏的发布,进入发布面板,根据页面提示完成发布。