BigQuery数据源为您提供读取BigQuery的功能,方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的BigQuery数据同步能力支持情况。
支持的版本及地域
BigQuery使用的SDK版本是
google-cloud-bigquery 2.29.0
,SDK能力具体请参见官网文档。支持创建BigQuery数据源的地域如下:
中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、英国(伦敦)、美国(硅谷)、美国(弗吉尼亚)
支持的字段类型
BigQuery的字段类型请参见BigQuery的官方文档。下面为您列出当前主要字段的支持情况。
BigQuery类型 | Java 类型 |
BOOL | Bool |
INT64 | Long |
FLOAT64 | BigDecimal |
NUMERIC | BigDecimal |
BIGNUMERIC | BigDecimal |
STRING | String |
BYTES | Bytes |
STRUCT | String |
ARRAY | String |
TIMESTAMP | Date |
DATE | Date |
TIME | Date |
DATETIME | Date |
GEOGRAPHY | String |
JSON | String |
INTERVAL | String |
数据同步前准备
在DataWorks上进行数据同步前,您需要将数据源的网络与数据集成使用的Serverless资源组(推荐)或独享数据集成资源组打通,使之通过内网地址进行访问。网络打通的具体方法可参考:网络连通方案。
创建数据源
在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见创建并管理数据源,详细的配置参数解释可在配置界面查看对应参数的文案提示。
以下对BigQuery数据源的几个配置项进行说明:
BigQuery Project ID:Google BigQuery的项目名。
BigQuery授权认证信息:上传Google Cloud的认证文件。
数据同步任务开发
数据同步任务的配置入口和通用配置流程可参见下文的配置指导。
单表离线同步任务配置指导
操作流程请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。
脚本模式配置的全量参数和脚本Demo请参见下文的附录:脚本Demo与参数说明。
附录:脚本Demo与参数说明
离线任务脚本配置方式
如果您配置离线任务时使用脚本模式的方式进行配置,您需要按照统一的脚本格式要求,在任务脚本中编写相应的参数,详情请参见通过脚本模式配置离线同步任务,以下为您介绍脚本模式下数据源的参数配置详情。