本文以Stream同步数据至DataHub的脚本模式为例,为您介绍如何通过数据集成导入离线DataHub数据。
前提条件
背景信息
本文以配置DataHub数据源为例,如果您需要使用其它类型的数据源配置同步任务,请参见配置Reader和配置Writer。
本文以Stream同步数据至DataHub的脚本模式为例,为您介绍如何通过数据集成导入离线DataHub数据。
本文以配置DataHub数据源为例,如果您需要使用其它类型的数据源配置同步任务,请参见配置Reader和配置Writer。
{
"type": "job",
"version": "1.0",
"configuration": {
"setting": {
"errorLimit": {
"record": "0"
},
"speed": {
"mbps": "1",
"concurrent": 1,//作业并发数。
"throttle": false
}
},
"reader": {
"plugin": "stream",
"parameter": {
"column": [//源端列名。
{
"value": "field",//列属性。
"type": "string"
},
{
"value": true,
"type": "bool"
},
{
"value": "byte string",
"type": "bytes"
}
],
"sliceRecordCount": "100000"
}
},
"writer": {
"plugin": "datahub",
"parameter": {
"datasource": "datahub",//数据源名。
"topic": "xxxx",//Topic是DataHub订阅和发布的最小单位,您可以用Topic来表示一类或者一种流数据。
"mode": "random",//随机写入。
"shardId": "0",//Shard 表示对一个Topic进行数据传输的并发通道,每个Shard会有对应的ID。
"maxCommitSize": 524288,//为了提高写出效率,待攒数据大小达到maxCommitSize大小(单位MB)时,批量提交到目的端。默认是1,048,576,即1MB数据。
"maxRetryCount": 500
}
}
}
}
您也可以单击图标,提交同步任务至调度系统中。调度系统会按照配置属性,从第2天开始定时执行。
在文档使用中是否遇到以下问题
更多建议
匿名提交