配置Hive输入组件_智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

Hive输入组件用于读取Hive数据源的数据。同步Hive数据源的数据至其他数据源的场景中，您需要先配置Hive输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置Hive输入组件。

使用限制

Hive输入组件支持数据格式为orc、parquet、text、rc、seq、iceberg（iceberg格式仅支持E-MapReduce5.x的Hive计算源或数据源）的Hive数据表。不支持ORC格式的事务表、Kudu表集成。

说明

Kudu表数据集成请使用Impala输入组件。更多信息，请参见配置Impala输入组件。

前提条件

已创建Hive数据源。具体操作，请参见创建Hive数据源。
进行Hive输入组件属性配置的账号，需具备该数据源的同步读权限。如果没有权限，则需要申请数据源权限。具体操作，请参见申请数据源权限。

操作步骤

请参见离线管道组件开发入口，进入离线管道脚本的开发页面。
按照以下操作指引，进入Hive输入配置对话框。
单击组件库->单击输入->拖拽Hive输入组件至画布->单击配置图标。

在Hive输入配置对话框中，配置参数。

参数	描述
步骤名称	即Hive输入组件的名称。Dataphin自动生成步骤名称，您也可以根据业务场景修改。命名规则如下：只能包含汉字、字母、下划线（_）、数字。不能超过64个字符。
数据源	在数据源下拉列表中，展示所有Hive类型的数据源，包括您已拥有同步读权限的数据源和没有同步读权限的数据源。对于没有同步读权限的数据源，您可以单击数据源后的申请，申请数据源的同步读权限。具体操作，请参见申请数据源权限。如果您还没有Hive类型的数据源，单击新建，创建数据源。具体操作，请参见创建Hive数据源。
表	选择数据同步的来源表。
分区	如果您选择的表是分区表，则需要您输入分区信息，例如`ds=${bizdate}`。
分区不在时	可选择以下策略，处理当指定分区不存在时的场景：置任务失败：终止该任务并置失败。置任务成功，无写入数据：任务正常运行成功，目标表中不写入数据。
文件编码	选择读取文件的存储在Hive的编码方式。文件编码包括UTF-8和GBK。
压缩格式	非必填项，如果文件有压缩，请选择对应的压缩格式，以便Dataphin进行解压处理。orc表默认选择zlib格式，如需其他解压格式需指定。其他格式表无默认格式。系统支持的压缩格式包括zlib、hadoop-snappy、lz4、none。
字段分隔符	字段分隔符通常是在创建表时指定的。例如，使用`ROW FORMAT DELIMITED FIELDS TERMINATED BY`语句定义。请填写读取表的字段分割符，如果您没有填写分隔符，则Dataphin默认为`\u0001`。
输出字段	输出字段区域展示了已选中表及筛选条件命中的所有字段。如果不需要将某些字段输出至下游组件，则您可以删除对应的字段：说明当计算引擎为Hadoop时，Hadoop输入组件的输出字段支持查看字段的分类分级，非Hadoop计算引擎则不支持。单个删除字段场景：如果需要删除少量的字段，则可以单击操作列下的图标，删除多余的字段。批量删除字段场景：如果需要删除大批量字段，则可以单击字段管理，在字段管理对话框选择多个字段后，单击左移动图标，将已选的输入字段移入到未选的输入字段并单击确定，完成字段的批量删除。

单击确认，完成Hive输入组件的属性配置。