DataHub可用于统一服务模块创建API。本文为您介绍DataHub命令行创建topic并上传数据的操作流程。
操作步骤
下载“DataHub console”,更多信息,请参见DataHub命令行工具。
配置console。
解压并运行“datahub_console.tar”。
在conf目录中的“datahub.properties”文件填写ak endpoint信息。参数说明:
datahub.accessid:访问DataHub的accessId
datahub.accesskey:访问DataHub的accessKey信息
datahub.endpoint:域名,具体可查看域名列表。
创建topic
-p:project名称
-t:topic名称
-m:表示不同的Topic类型,Blob代表创建Blob类型的Topic,Tuple表示创建Tuple类型的Topic。
-f:Tuple类型Topic字段格式为[(fieldName,fieldType,isNull)],多个字段以逗号隔开。
-s:shard数量
-l:数据生命周期,范围1-7天。
-c: topic描述
创建银行客户topic:修改projectName。
ct -p projectName -t yhkh1 -m TUPLE -s 1 -l 7 -c 银行客户信息 -f [(id,bigint,true),(zzhm,string,true),(khmc,string,true),(nl,bigint,true),(xb,string,true),(yddh1,string,true),(csrq,string,true),(jysp,string,true),(career,string,true),(hyzk,string,true),(gz,bigint,true),(decdbyjyje,bigint,true),(decdbyjybs,bigint,true),(zjzdjyrq,string,true),(jtnsr,bigint,true),(dqckcy,bigint,true)]
上传data.csv数据:修改projectName和文件路径。
-f:参数表示文件路径。
说明Windows路径下请添加转义符,示例:D:\\test\\test.txt
-p:project名称
-t:topic名称
-m:参数表示文本分隔符,目前支持逗号、空格分隔符
-n:参数表示每次上传batchsize大小,默认为1000。
uf -f D:\\DataHubcmd\\data.csv -p projectName -t yhkh1 -m "," -n 10000
文档内容是否对您有帮助?