文档

DataHub命令行创建topic并上传数据

更新时间:

DataHub可用于统一服务模块创建API。本文为您介绍DataHub命令行创建topic并上传数据的操作流程。

操作步骤

  1. 下载“DataHub console”,更多信息,请参见DataHub命令行工具

  2. 配置console。

    1. 解压并运行“datahub_console.tar”。

    2. 在conf目录中的“datahub.properties”文件填写ak endpoint信息。4390参数说明:

      • datahub.accessid:访问DataHub的accessId

      • datahub.accesskey:访问DataHub的accessKey信息

      • datahub.endpoint:域名,具体可查看域名列表

  3. 创建topic

    • -p:project名称

    • -t:topic名称

    • -m:表示不同的Topic类型,Blob代表创建Blob类型的Topic,Tuple表示创建Tuple类型的Topic。

    • -f:Tuple类型Topic字段格式为[(fieldName,fieldType,isNull)],多个字段以逗号隔开。

    • -s:shard数量

    • -l:数据生命周期,范围1-7天。

    • -c: topic描述

  4. 创建银行客户topic:修改projectName。

    ct -p projectName -t yhkh1 -m TUPLE -s 1 -l 7 -c 银行客户信息 -f [(id,bigint,true),(zzhm,string,true),(khmc,string,true),(nl,bigint,true),(xb,string,true),(yddh1,string,true),(csrq,string,true),(jysp,string,true),(career,string,true),(hyzk,string,true),(gz,bigint,true),(decdbyjyje,bigint,true),(decdbyjybs,bigint,true),(zjzdjyrq,string,true),(jtnsr,bigint,true),(dqckcy,bigint,true)]
  5. 上传data.csv数据:修改projectName和文件路径。

    • -f:参数表示文件路径。

    说明

    Windows路径下请添加转义符,示例:D:\\test\\test.txt

    • -p:project名称

    • -t:topic名称

    • -m:参数表示文本分隔符,目前支持逗号、空格分隔符

    • -n:参数表示每次上传batchsize大小,默认为1000。

    uf -f D:\\DataHubcmd\\data.csv -p projectName -t yhkh1 -m "," -n 10000