配置BigQuery数据源

更新时间:
复制为 MD 格式

通过数据迁移服务MMS(MaxCompute Migration Service)迁移数据前,需新增并启动BigQuery数据源,确保数据源与MMS服务网络连通,并将BigQuery的元数据同步至MMS服务,以便配置后续的迁移作业。

适用范围

仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)和新加坡地域支持MMS迁移服务。

迁移费用

MMS数据迁移会消耗各类资源从而产生消费,主要组成费用如下:

MMS操作

计费项

收费方

  • 数据源运行过程(包括元数据同步)

  • 任务迁移数据过程

计算费用:MaxCompute端产生Spark作业消耗计算资源

阿里云

MaxCompute

源端数据存储

存储费用:若使用OSS/S3等对象存储,源端访问存储文件时产生。

BigQuery

若迁移任务配置了“开启校验”

计算费用:在HiveMaxCompute分别执行校验SQL语句产生。

阿里云

MaxComputeBigQuery

网络配置

网络费用

  • 若有网络专线则收取专线相关费用

  • 若无网络专线则产生数据出Google云的流量费用

专线提供方或阿里云网络

建议选择包年包月的计算资源和数据传输独享资源来执行迁移作业,以便降低迁移成本。

操作步骤

目标端MaxCompute项目已完成准备工作

步骤一:外部数据源准备

在源端BigQuery,完成以下操作:

  1. 已创建BigQuery服务账号,并已下载鉴权JSON。

  2. 已创建BigQuery项目,并已经将该项目相关的读元数据、数据等权限授权给该BigQuery服务账号。

步骤二:新增数据源

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏,选择数据传输 > 迁移服务

  3. 数据源页签,单击新增数据源

    在弹出的MaxCompute服务关联角色对话框中,单击确认,即可创建成功。若未自动弹出该对话框,则表明该角色已创建。

    新增数据源页面,配置数据源信息,然后单击新增,完成数据源创建。

    • 数据源基本信息

      参数名

      是否必填

      说明

      数据源名称

      数据源名称,可自定义,不能包含字符、数字、汉字之外的特殊字符。

      数据源类型

      选择BigQuery

      网络连接

      选择需要使用的网络连接。

      网络连接在MaxCompute管理配置 > 网络连接 模块创建,用于MMSVPC通信,最终连接数据源。

      服务账号密钥文件

      BigQuery服务账号的密钥文件。

      可以通过BigQuery IAM控制台创建服务账号,下载鉴权JSON文件,详情请参见服务账号概述

      项目 ID

      待迁移的BigQuery项目名称。

      默认目标MaxCompute项目

      数据迁移时选择映射的目标项目,不可修改。

      目标MaxCompute项目列表

      若一个数据源的数据需要迁移到多个目标项目,需配置目标MaxCompute项目列表。

      MaxCompute执行迁移作业的项目

      迁移过程中,执行在MaxCompute上发起的Spark、SQL等迁移作业的项目,并使用该项目关联的默认计算Quota。

    • 其他信息

      以下参数均非必填,根据需要填写。

      参数名

      说明

      范围分区表迁移方式

      BigQuery范围分区表迁移方式。

      • 默认值为Partition

      • Cluster

      压缩类型

      BigQuery数据的压缩类型

      Bignumeric 类型默认 precision

      BigQuery Bignumeric类型数据的精度值,默认值为38。

      Bignumeric 类型默认 scale

      BigQuery Bignumeric类型数据的小数位数,默认值为18。

      MC Auto Partition

      自动分区(暂不支持,请先关闭)。

      Force the Use of Append 2.0 Table

      强制目标表使用Append2.0(暂不支持,请先关闭)。

      BigQuery Execution Project

      BigQuery端执行作业的Project名称。

      Metastore定时更新

      数据源元数据是否定时拉取。取值说明如下:

      • 启用:定时拉取,更新周期支持每天和每小时,支持配置更新开始时间

        • 每日更新:定时器每天运行一次,运行时刻为选定的24小时内的某一时间(精确到分钟)。

        • 每小时更新:定时器每小时运行一次,运行时刻为选定的60分钟内的某一分钟。

      • 禁用:不定时拉取。

      Metastore访问并发量

      访问MaxCompute MetaStore的并发量,用于提高获取MaxCompute元数据的速度。

      库白名单

      需要迁移的BigQuery数据库,多个库之间以半角逗号(,)分隔。

      库黑名单

      不需要迁移的BigQuery数据库,多个库之间以半角逗号(,)分隔。

      表黑名单

      不需要迁移的BigQuery数据表。

      单个表的格式为dbname.tablename,多个表之间以半角逗号(,)分隔。

      表白名单

      需要迁移的BigQuery数据表。

      单个表的格式为dbname.tablename,多个表之间以半角逗号(,)分隔。

      数据搬迁任务最大并发量

      根据需要配置。

      MaxCompute迁移任务sql参数

      SQL参数。参考Flag参数列表

      表名字符转换配置

      表名字符映射,如BigQuery的表名中的中划线-映射为MaxCompute表名下划线_

步骤三:同步元数据

数据源启动后会生成一个作业实例,实现数据源与MMS服务的连接,再将源数据同步至MMS服务,以便配置后续迁移作业。

说明

该作业实例会占用4 CU计算资源。当数据源无任何等待运行或正在运行的迁移作业或元数据同步作业时,系统会关闭数据源,使用时需再次启动。

  1. 数据源页签,单击目标数据源对应的操作列的更新元数据

  2. 数据源页签,可以查看目标数据源的运行状态

  3. 若数据源的元数据存在变动,且启用了元数据定时更新,系统会按照配置的时间定时更新,无需手动进行元数据同步操作。

外部数据源配置完成后,创建迁移作业