快速入门
步骤一:开通DataHub服务
根据页面提示开通服务
步骤二:创建Project和Topic
单机新建项目 按钮 后填写相关信息进行创建
参数 | 描述 |
---|---|
Project | 项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。值得注意的是,DataHub的项目空间与MaxCompute的项目空间是相互独立的。用户在MaxCompute中创建的项目不能复用于DataHub,需要独立创建。 |
描述 | Project的描述信息 |
3 . 点击Project详情页面中的创建Topic按钮,进行Topic的创建。
参数 | 描述 |
---|---|
创建方式 | 项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。值得注意的是,DataHub的项目空间与MaxCompute的项目空间是相互独立的。用户在MaxCompute中创建的项目不能复用于DataHub,需要独立创建。 |
名称 | Topic的描述信息 |
类型 | Topic类型,TUPLE代表结构化数据,BLOB代表非结构化数据 |
Schema详情 | 选择TUPLE类型会出现Schema详情,根据自己需求创建字段,允许为NULL代表如果上游没有该字段值自动置为NULL,不允许为NULL则会严格检验,字段类型不匹配写入报错 |
Shard数量 | Shard表示对一个Topic进行数据传输的并发通道,每个Shard会有对应的ID。每个Shard会有多种状态 : Opening - 启动中,Active - 启动完成可服务。每个Shard启用以后会占用一定的服务端资源,建议按需申请Shard数量 |
生命周期 | Topic中写入数据在系统中可以保存的最长时间,以天为单位,最小值为1,最大值为7,修改生命周期需要使用 JAVA SDK updateTopic方法 |
描述 | Topic的描述信息 |
步骤三:写入数据
DataHub支持多种写入方式,针对日志可以选择Flume等多种插件,针对数据库可以选择DTS、canal,也可以通过SDK写入,在这里使用console工具上传文件的方式写入数据
下载并解压console工具包,配置ak和endpoint 信息console使用指南
使用uf命令上传文件
uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000
web页面查看数据是否写入成功,根据最新数据写入时间和数据总量查看数据写入情况
数据抽样,检查数据质量
选择抽样shard以及抽样起始时间
点击抽样,即可查看数据

步骤四:同步数据
以同步MaxCompute为例
依次进入
项目列表/Project详情/Topic详情
页面点击右上角的
+ 同步
按钮进行同步任务创建选择MaxCompute类型作业,如下图所示:
1)TUPLE类型同步
部分配置说明:
下面罗列了部分管控台创建同步任务的配置说明,更多更灵活的操作请参考SDK使用。
导入字段
DataHub可以根据用户设置将部分column内容同步到MaxCompute表中
分区模式
分区模式决定了将数据写入到MaxCompute哪个分区中,目前DataHub支持以下分区方式:
分区模式 | 分区依据 | 支持Topic类型 | 说明 |
---|---|---|---|
USER_DEFINE | Record中的分区列(和MaxCompute的分区字段同名)的value值 |