全部产品

创建同步OSS

准备工作


1.准备OSS Bucket

DataHub支持将数据同步到对象存储OSS中,在创建同步任务前,用户首先需要在OSS管控台创建OSS Bucket,作为DataHub数据同步的目标Bucket。

2.服务关联角色授权

用户配置同步任务时,账号可以选择使用AccessId/AccessKey静态云账号或者STS临时账号的方式进行数据同步。

当选择STS临时账号方式时,将会自动创建DataHub服务关联角色,DataHub服务会使用此角色访问OSS以完成数据同步


3.同步说明

1)目前DataHub支持将TUPLE和BLOB数据同步到OSS中

  • TUPLE: 采用csv数据格式,每个Record中的column数据以逗号分隔,Record之间采用换行符'\N'分隔
  • BLOB: 采用Append方式进行数据追加,如果用户需要拆分OSS数据,用户需要自己往DataHub中写入数据分隔符


2)文件格式

同步到OSS中的文件名称采用ConnectorId等有含义信息拼接而成,暂时不支持用户修改

3)二级目录

DataHub同步会根据数据写入DataHub的时间来生成二级目录,默认Asia/Shanghai时区,更多配置可参考SDK方式创建。

创建同步任务

  1. 依次进入项目列表/Project详情/Topic详情页面
  2. 点击右上角的 + 同步按钮进行同步任务创建1


下面罗列了部分管控台创建同步任务的配置说明,更多更灵活的操作请参考SDK使用。

  1. Endpoint
    OSS服务地址,请使用经典网络域名,内部网络仅支持http,暂不支持https
  2. 导入字段
    DataHub可以根据用户设置将部分column内容同步到OSS文件中
  3. 目录前缀
    数据同步到OSS Bucket下面的目录名称
  4. 时间格式和时间间隔
    DataHub会根据数据写入DataHub的时间来决定写入到上述目录前缀的二级目录名称
    时间间隔表示二级目录的数据时间范围,默认[15min ~ 1440min(1day)]

同步示例

  1. 创建OSS Bucket
    在OSS管控台中创建同步Bucket,如下图所示:2
  2. 建立DataHub Topic
    在DataHub中建立Topic,示例中为TUPLE类型topic,schema如下图所示:3
  3. 建立同步任务4
  4. 向DataHub中写入TUPLE数据,数据内容如下图所示5
  5. 确认同步数据
    同步文件在OSS中的命名格式如下图所示: 包含Bucket、目录前缀、二级目录以及文件名等
    6
    下载该文件,并查看文件内容,TUPLE同步文件内容为csv数据格式,如下图所示:7