DataHub DataConnector是把DataHub服务中的流式数据同步到其他云产品中的功能,目前支持将Topic中的数据实时/准实时同步到MaxCompute(ODPS)、OSS、ElasticSearch、RDS Mysql、ADS、TableStore中。用户只需要向DataHub中写入一次数据,并在DataHub服务中配置好同步功能,便可以在各个云产品中使用这份数据。
DataHub DataConnector是把DataHub服务中的流式数据同步到其他云产品中的功能,目前支持将Topic中的数据实时/准实时同步到MaxCompute(ODPS)、OSS、ElasticSearch、RDS Mysql、ADS、TableStore中。用户只需要向DataHub中写入一次数据,并在DataHub服务中配置好同步功能,便可以在各个云产品中使用这份数据。
注意事项:
目前所有DataConnector均仅支持同一Region的云服务之间同步数据,不支持同步数据到跨Region的服务。
DataConnector所配置的目标服务Endpoint需要填写相应的内网域名(经典网络),不支持使用公网域名同步。
数据同步目前仅支持at least once语义,在网络服务异常等小概率场景下可能会导致目的端的数据产生重复,需要做去重处理。
DataConnector支持系统
目标系统 | 时效性 | 是否支持vpc | 描述 |
MaxCompute(ODPS) | 准实时,通常情况5分钟延迟 | No | 同步Topic中流式数据到离线MaxCompute表,字段类型名称需一一对应,且DataHub中必须包含一列(或多列)MaxCompute表中分区列对应的字段 |
OSS | 实时 | No | 同步数据到对象存储OSS指定Bucket的文件中,将以csv格式保存 |
ElasticSearch | 实时 | Yes | 同步数据到ElasticSearch指定Index中,Shard之间数据同步不保证时序,所以需将同样ID的数据写入相同的Shard中 |
MySQL | 实时 | Yes | 同步数据到指定的Rds Mysql表中 |
ADS | 实时 | No | 同步数据到指定的ADS表中 |
TableStore | 实时 | No | 同步数据到指定的TableStore表中 |
查看同步任务
在创建完成同步任务后,切换到数据同步页签点击查看可以查看同步的详细信息,包括同步的点位、同步状态等信息