准备工作
1.准备OSS BucketDataHub支持将数据同步到对象存储OSS中,在创建同步任务前,用户首先需要在OSS管控台创建OSS Bucket,作为DataHub数据同步的目标Bucket。2.服务关联角色授权用户配置同步任务时,账号可以选择使用AccessId/AccessKey
静态云账号或者STS
临时账号的方式进行数据同步。当选择STS临时账号方式时,将会自动创建DataHub服务关联角色,DataHub服务会使用此角色访问OSS以完成数据同步
3.同步说明1)目前DataHub支持将TUPLE和BLOB数据同步到OSS中
TUPLE: 采用csv数据格式,每个Record中的column数据以逗号分隔,Record之间采用
换行符'\n'
分隔BLOB: 采用Append方式进行数据追加,如果用户需要拆分OSS数据,用户需要自己往DataHub中写入数据分隔符
2)文件格式同步到OSS中的文件名称采用ConnectorId
等有含义信息拼接而成,暂时不支持用户修改3)二级目录DataHub同步会根据数据写入DataHub的时间来生成二级目录,默认Asia/Shanghai
时区,更多配置可参考SDK方式创建。
创建同步任务
依次进入
项目列表/Project详情/Topic详情
页面点击右上角的
+ 同步
按钮进行同步任务创建
下面罗列了部分管控台创建同步任务的配置说明,更多更灵活的操作请参考SDK使用。
EndpointOSS服务地址,请使用经典网络域名,内部网络仅支持http,暂不支持HTTPS
导入字段DataHub可以根据用户设置将部分column内容同步到OSS文件中
目录前缀数据同步到OSS Bucket下面的目录名称
时间格式和时间间隔DataHub会根据数据写入DataHub的时间来决定写入到上述目录前缀的二级目录名称时间间隔表示二级目录的数据时间范围,默认[15min ~ 1440min(1day)]
同步示例
创建OSS Bucket在OSS管控台中创建同步Bucket,如下图所示:
建立DataHub Topic在DataHub中建立Topic,示例中为TUPLE类型topic,schema如下图所示:
建立同步任务
向DataHub中写入TUPLE数据,数据内容如下图所示
确认同步数据同步文件在OSS中的命名格式如下图所示:包含Bucket、目录前缀、二级目录以及文件名等下载该文件,并查看文件内容,TUPLE同步文件内容为csv数据格式,如下图所示: