HBase输入组件用于读取HBase数据源的数据。同步HBase数据源的数据至其他数据源的场景中,您需要先配置HBase输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置HBase输入组件。
前提条件
已购买及开通了数据服务或标签服务模块的高可用功能才可以进行数据源的主备链路配置。
已创建HBase数据源。具体操作,请参见创建HBase数据源。
进行HBase输入组件属性配置的账号,需具备该数据源的同步读权限。如果没有权限,则需要申请数据源权限。具体操作,请参见申请、续期和交还数据源权限。
操作步骤
请参见离线管道组件开发入口,进入离线管道脚本的开发页面。
按照以下操作指引,进入HBase输入配置对话框。
单击组件库->单击输入->拖动HBase输入组件至画布->单击配置图标。
在HBase输入配置对话框中,配置参数。
参数
说明
步骤名称
即Hbase输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:
只能包含汉字、字母、下划线(_)、数字。
不能超过64个字符。
数据源
在数据源下拉列表中,为您展示当前Dataphin中所有的HBase类型数据源,包括您是否拥有同步读权限的数据源。
对于没有同步读权限的数据源,您可以单击数据源后的申请,申请数据源的同步读权限。具体操作,请参见申请数据源权限。
如果您还没有HBase类型的数据源,单击新建,创建数据源。具体操作,请参见创建HBase数据源。
选择链路
已开通标签服务高可用功能且选择的Hbase数据源主备链路为主备双链路时,支持选择主链路或备链路用于集成,仅影响生产数据源。
表
选择数据输入的表。
输出方式
选择输出方式。包括Normal模式和多版本模式。
maxversion
输出方式选择多版本模式(竖表)需填写maxversion。
maxversion指所要读取的版本数,-1表示读取所有的版本。
文件编码
选择文件编码。系统支持的文件编码包括UTF-8和GBK。
起始主键
指定一个起始行键作为扫描的起点,所有字典序大于或等于这个起始行键的行都会被包括在扫描结果内。例如,
aaa
(字符串)或10110
(二进制)。截止主键
定义了扫描操作结束的位置,如果指定了截止行键,则所有字典序小于该行键的行会被扫描,但不包括截止行键本身(即扫描是左闭右开区间)。例如,在HBase表中要扫描从
user0001
到user9999
的所有用户记录。可以设置,起始主键为user0001
,截止主键为user10000
。这样会返回所有以user
开头,并且主键值在user0001
和user10000
之间的行,但不会包括主键为user10000
的行。起始主键类型
请选择起始主键的类型,支持字符串或二进制。
输出字段
为您展示输出字段。
批量添加字段。
单击批量添加。
以JSON格式批量配置。示例如下:
// 示例: [{ "name": "cf1:q1", "type": "string" }, { "name": "cf1:q2", "type": "string" }, { "name": "cf1:q3", "type": "string" }]
说明name表示引入的列簇及字段名称,type表示字段类型。例如,
"name":"cf1:a","type":"String"
表示cf1
列簇下的a
字段引入,字段类型为String
。以TEXT格式批量配置,示例如下:
// 示例: cf1:q1,string cf1:q2,string cf1:q3,string
行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、点(.)。
列分隔符用于分隔字段名与字段类型,默认英文逗号(,)。
单击确定。
新建输出字段。
单击新建输出字段,根据页面提示填写列簇、字段及选择类型。
管理输出字段。
您可以对已添加的字段执行如下操作:
单击拖动字段旁的图标,可调换字段所处位置。
单击操作列下的图标,编辑已有的字段。
单击操作列下的图标,删除已有的字段。
单击确认,完成HBase输入组件的属性配置。