公共数据集数据源

DataWorks 内置了开箱即用的公共数据集数据源,帮助您零配置快速体验单表离线数据同步。本文为您介绍DataWorks的公共数据集数据同步能力支持情况。

支持的数据集详情及地域

  • 支持的公共数据集列表以及数据集的详情参见DataWorks Gallery云市场数据集类别,数据集需订阅后方可在同步任务中使用。

  • 支持使用公共数据集数据源的地域如下:

    北京、上海、杭州、深圳、张家口、成都、乌兰察布、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、英国(伦敦)、美国(硅谷)、美国(弗吉尼亚)。

数据同步任务开发

数据同步任务的配置入口和通用配置流程可参见下文的配置指导。

单表离线同步任务配置指导

附录:脚本Demo与参数说明

离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要按照统一的脚本格式要求,在任务脚本中编写相应的参数,详情请参见脚本模式配置,以下为您介绍脚本模式下数据源的参数配置详情。

Reader脚本Demo

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "public_dataset",
            "parameter": {
                "datasource": "精心准备的图书数据集",
                "column": [
                    "bookid",
                    "title",
                    "authors",
                    "average_rating",
                    "isbn",
                    "isbn13",
                    "language_code",
                    "__num_pages",
                    "ratings_count",
                    "text_reviews_count",
                    "publication_date",
                    "publisher"
                ],
                "table": "good_reads_books"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "stream",
            "parameter": {
                "print": true
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh_CN",
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    }
}

Reader脚本参数

参数

描述

是否必选

默认值

datasource

公共数据集名称,例如:精心准备的图书数据集。

table

选取的需要同步的表名称。表名可在数据集详情中查看。

column

需要读取的公共数据集表字段,字段之间用英文逗号分隔。例如"column": ["id", "name", "age"]