EMR Hive单表离线同步至MaxCompute

本文以EMR Hive单表离线同步写入MaxCompute场景为例,为您介绍OSS离线同步在数据源配置、网络连通、同步任务配置方面的最佳实践。

背景信息

Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。数据集成支持从Hive同步数据到其他目标端,也支持从其他目标端同步数据到Hive。

前提条件

  • 已购买Serverless资源组独享数据集成资源组

  • 已创建Hive数据源和MaxCompute数据源,详情请参见创建数据集成数据源

  • 已完成资源组与数据源间的网络连通,详情请参见网络连通方案

    说明

    如果您使用公网联通独享资源组和EMR,则EMR集群安全组策略需要对独享资源组的EIP地址做相应的端口放行。安全组访问规则的入方向允许放行EMR集群访问端口(一般包括10000、9093、8020等端口)。

使用限制

暂不支持将源端数据同步至MaxCompute外部表。

操作步骤

说明

本文以数据开发(Data Studio)(新版)界面操作为例,演示离线同步任务配置。

一、创建离线同步节点

  1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。

  2. 在左侧导航栏单击image,然后单击项目目录右侧的image,选择新建节点 > 数据集成 > 离线同步,自定义离线同步任务节点名称后,单击确认

二、网络与资源配置

  1. 网络与资源配置步骤,选择同步任务所使用的数据来源资源组数据去向。您可以为该任务分配任务资源占用CU数。

    • 数据来源选择已添加的Hive数据源。

    • 数据去向选择已添加的MaxCompute数据源。

    • 资源组选择已与HiveMaxCompute数据源连通的资源组。您可以为该任务分配任务资源占用CU数。

  2. 数据来源数据去向卡片中单击测试连通性

    image

  3. 确保数据来源与数据去向均连通成功后,单击下一步

三、配置数据来源与去向

配置数据来源(Hive)参数

本文档将Hive数据单表离线同步至MaxCompute,数据来源为Hive表,配置要点如下。

image

配置项

配置要点

数据源

默认显示上一步选择的Hive数据源。

读取Hive方法

  • 基于HDFS文件读取数据:Hive Reader插件通过访问HiveMetastore服务,解析出您配置的数据表的HDFS文件存储路径、文件格式、分隔符等信息后,再通过读取HDFS文件的方式读取Hive中的表数据。

  • 基于Hive JDBC读取数据:Hive Reader插件通过Hive JDBC客户端连接HiveServer2服务读取数据。此方式支持通过where条件过滤数据,并直接通过SQL读取数据。

说明

HDFS方式效率更高,JDBC方式会生成MapReduce程序,同步效率较低。注意HDFS方式同步不支持配置条件过滤、不支持读取视图(VIEW)表,您可以根据自身需求选择相应的同步方式。

选择待同步的Hive表。建议对于要进行数据同步的表,Hive数据源开发和生产环境保证具有相同的表结构。

说明

此处会展示Hive数据源开发环境地的表列表和表结构,如果您的Hive数据源开发和生产环境的表定义不同,则可能出现任务在开发环境配置正常但提交生产运行后报错表不存在、列不存在的问题。

parquet schema

如果Hive表存储格式为parquet格式,需要配置对应的parquet schema。

配置数据去向(MaxCompute)参数

本文档将Hive数据单表离线同步至MaxCompute,数据去向为表,配置要点如下。

image

说明

下表中未说明参数保持默认即可。

配置项

配置要点

数据源

默认显示上一步选择的MaxCompute数据源。如果您使用的是标准模式的DataWorks工作空间,会分别显示开发和生产项目的名称。

选择待同步的MaxCompute表。如果您使用的是标准类型的DataWorks工作空间,请确保在MaxCompute的开发环境和生产环境中存在同名且表结构一致的MaxCompute表。

您也可以单击意见生成目标表结构,系统将自动创建表接收数据,支持手动调整建表语句。

说明

如果:

  • 开发环境不存在待同步的MaxCompute表,则选择此处配置离线同步节点的去向表的下拉框中无法搜到待同步表。

  • 生产环境不存在待同步的MaxCompute表,同步任务提交发布后,数据同步任务调度运行时将会由于无法找到待同步表而导致同步任务运行失败。

  • 开发环境和生产环境的表结构不一致,同步任务提交发布后,同步任务实际调度运行时的列对应关系,可能与此处离线同步节点配置的列对应关系不一致,最终导致数据写入不正确。

分区信息

如果表为分区表,您可以填入分区列的取值。

  • 取值可以是固定值,如ds=20220101

  • 取值可以是调度系统参数,如ds=${bizdate},当任务运行时,会自动替换调度系统参数。

四、配置字段映射

选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系。您可以选择同名映射同行映射取消映射手动编辑映射关系

五、配置通道控制

离线同步任务支持设置任务期望最大并发数脏数据策略等。本教程脏数据策略配置为不容忍脏数据,其他配置保持默认。更多信息,请参见通过向导模式配置离线同步任务

六、调试配置并运行

  1. 单击离线同步节点编辑页面右侧的调试配置,设置调试运行使用的资源组脚本参数,然后单击顶部工具栏的运行,测试同步链路是否成功运行。

  2. 您可以在左侧导航栏单击image,然后单击个人目录右侧的image,创建一个后缀为.sql的文件,执行如下SQL查询数据去向表中的数据是否符合预期。

    说明
    SELECT * FROM <MaxCompute侧目标表名> WHERE pt=<指定分区> LIMIT 20;

七、调度配置与发布

单击离线同步任务右侧的调度配置,设置周期运行所需的调度配置参数后,单击顶部工具栏的发布,进入发布面板,根据页面提示完成发布