DataHub数据同步功能
DataHub提供数据Sink/Source功能,即数据同步功能,DataHub支持将对应Topic中的数据实时/准实时
的同步到第三方阿里云产品中,打通阿里云产品间的数据流通。目前支持MaxCompute(原ODPS)、分析型数据库MySQL(ADS)、云数据库RDS、表格存储TableStore、对象存储OSS、ElasticSearch以及函数计算服务等。用户只需向DataHub服务中写入一次数据,并且在DataHub服务中配置数据同步功能,便可以在所支持的各个云产品中使用该数据,提供完整的数据闭环。
DataHub支持云产品
注意:
使用MaxCompute当batch数据量达到64M或者5min同步一次
使用TableStore/OSS/ElasticSearch/函数计算/Hologres当batch数据量达到4M或 者20s会同步一次
同步MySQL/RDS/ADS3.0 当batch数据量达到512kb或者20s会进行一次同步
目标服务 | 支持Topic类型 | 时效性 | 是否支持VPC |
MaxCompute | TUPLE / BLOB | 准实时,5分钟时延 | 否 |
分析型数据库MySQL | TUPLE | 实时 | 否 |
云数据库RDS | TUPLE | 实时 | 是 |
表格存储TableStore | TUPLE | 实时 | 否 |
对象存储OSS | TUPLE / BLOB | 实时 | 否 |
ElasticSearch | TUPLE | 实时 | 是 |
函数计算 | TUPLE / BLOB | 实时 | 否 |
Hologres | TUPLE | 实时 | 否 |
使用说明
用户使用数据同步时尽可能的进行同一Region的云产品之间的数据同步,一方面避免跨Region网络不通问题,另一方面也减少不同Region之间数据同步的网络时延。
由于阿里云的网络隔离原因,用户配置目标服务的Endpoint时请使用对应服务的内网地址(经典网络),不支持使用公网地址同步。
DataHub数据同步仅支持at least once语义,在网络服务异常等小概率场景下可能会导致目标端的数据产生少量重复,用户使用时请注意进行去重处理。
用户在创建数据同步时,DataHub会自动为该同步任务绑定SubscriptionId用于记录从DataHub读取数据的读取点位(非同步点位),该SubscriptionId请用户不要操作。
目前只有DataHub topic的Owner/Creator账号才具备创建connector(数据同步)的权限。