全部产品

批量归档

更新时间:2019-06-10 11:13:38

批量归档支持从mysql、polardb等数据库把业务数据批量归档到spark进行分析处理。
入口:https://hbase.console.aliyun.com/hbase/cn-shanghai/workspace/archive归档列表

创建归档

基本信息

选择一个可运行的spark集群。
创建归档基本信息

数据源

选择好数据源实例后,还需要填写有权限可读取的账号密码。数据源

归档配置

大多数归档业务场景,需要先进行一次全量归档后,再每天定时进行增量数据的归档。下面先以“一次全量 -> 每天增量”为例子作说明。

一次全量 -> 每天增量

完成一次全量的归档创建后,会生成对应的工作流。可以跳转到该工作流手工运行调试,成功后spark里面就已经有了一份全量数据。这时候从归档列表里面,右键点击,直接生成“每天增量”。
注意,一次全量必须成功运行后才能进行转换。一次全量生成每天增量每天增量

其它归档类型

  • 每天全量:逻辑处理简单,适用于数据量不大的场景。即每天都会拉取全量数据,每个spark分区表数据都是全量的。
  • 每天增量:根据增量字段,每天只拉取有更新或新增的数据。增量字段一般使用创建时间或者修改时间。
  • 每天增全量:跟“每天增量”的区别是,拉取到增量数据后,会跟上一次数据进行merge。spark每个分区表的数据都包含前面所有分区的数据。

归档表映射

根据选择的源数据库实例和账号密码,可以直接选择要归档的库表,会自动生成字段映射。字段名字有需要可以自行修改。spark表需要是新的,不能是已存在的表。归档表映射

mysql和spark字段类型的具体映射规格,详见后面的附录:mysql -> spark类型映射
目前只支持大部分常用的mysql类型,个别少用的暂不支持。
另外,主键必须存在,不能删除。

归档关联工作流

每个归档创建后,会生成对应的工作流。该工作流每天定时调度已打开(一次全量除外,需手工运行)。可以跳转到该工作流查看每天的归档任务运行情况。
归档关联工作流

注意:如果某天的归档工作流运行失败,后续的工作流也不会成功运行,避免归档数据中间出现缺失。这种场景,需要到工作流管理那边手工运行补数据。如果需要补多天前的数据,可以通过“指定系统时间”,选择补前n天的数据。工作流补数据

mysql -> spark类型映射

MySQL Spark
TINYINT(1), BOOL, BOOLEAN, BIT(1) BOOLEAN
TINYINT TINYINT
SMALLINT SMALLINT
MEDIUMINT, INT, INTEGER INT
BIGINT BIGINT
DECIMAL DECIMAL
FLOAT FLOAT
DOUBLE DOUBLE
DATE DATE
DATETIME, TIMESTAMP TIMESTAMP
CHAR CHAR
VARCHAR VARCHAR
TEXT TEXT
BINARY BINARY