DataWorks 内置了开箱即用的公共数据集数据源,帮助您零配置快速体验单表离线数据同步。本文为您介绍DataWorks的公共数据集数据同步能力支持情况。
支持的数据集详情及地域
支持的公共数据集列表以及数据集的详情参见DataWorks Gallery云市场数据集类别,数据集需订阅后方可在同步任务中使用。
支持使用公共数据集数据源的地域如下:
北京、上海、杭州、深圳、张家口、成都、乌兰察布、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、英国(伦敦)、美国(硅谷)、美国(弗吉尼亚)。
数据同步任务开发
数据同步任务的配置入口和通用配置流程可参见下文的配置指导。
单表离线同步任务配置指导
脚本模式配置的全量参数和脚本Demo请参见下文的附录:脚本Demo与参数说明。
附录:脚本Demo与参数说明
离线任务脚本配置方式
如果您配置离线任务时使用脚本模式的方式进行配置,您需要按照统一的脚本格式要求,在任务脚本中编写相应的参数,详情请参见脚本模式配置,以下为您介绍脚本模式下数据源的参数配置详情。
Reader脚本Demo
{
"type": "job",
"version": "2.0",
"steps": [
{
"stepType": "public_dataset",
"parameter": {
"datasource": "精心准备的图书数据集",
"column": [
"bookid",
"title",
"authors",
"average_rating",
"isbn",
"isbn13",
"language_code",
"__num_pages",
"ratings_count",
"text_reviews_count",
"publication_date",
"publisher"
],
"table": "good_reads_books"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": true
},
"name": "Writer",
"category": "writer"
}
],
"setting": {
"errorLimit": {
"record": "0"
},
"locale": "zh_CN",
"speed": {
"concurrent": 2,
"throttle": false
}
}
}Reader脚本参数
参数 | 描述 | 是否必选 | 默认值 |
datasource | 公共数据集名称,例如:精心准备的图书数据集。 | 是 | 无 |
table | 选取的需要同步的表名称。表名可在数据集详情中查看。 | 是 | 无 |
column | 需要读取的公共数据集表字段,字段之间用英文逗号分隔。例如"column": ["id", "name", "age"]。 | 是 | 无 |
该文章对您有帮助吗?