通过数据迁移服务MMS(MaxCompute Migration Serverless)进行数据迁移前,需新增BigQuery数据源并启动,以确保与MMS服务的网络连接,并将BigQuery的元数据同步至MMS服务,以便进行后续的迁移作业配置。
前提条件
使用限制
当前仅新加坡、印度尼西亚(雅加达)地域支持该功能。
迁移计费
MMS数据迁移会消耗各类资源从而产生消费,主要组成费用如下:
MMS数据源实例运行时,MaxCompute端产生Spark计算费用。
数据源的元数据同步,源端BigQuery会产生SQL计算费用。
迁移任务迁移数据过程计算相关费用:
源端BigQuery,若有网络专线则专线相关费用,若无网络专线则产生数据出Google云的流量费用。
目标端MaxCompute,产生Spark作业计算费用。
若迁移任务配置了“开启校验”参数,还会在源端BigQuery和目标端MaxCompute分别产生SQL计算费用。
关于目标端MaxCompute的计费,建议您选择包年包月的计算资源来执行迁移作业,以便降低迁移成本。详情请参见计算费用(包年包月)。
新增数据源
登录MaxCompute控制台,在左上角选择目标地域。
在左侧导航栏,选择
。在数据源页签,单击新增数据源,配置数据源参数。
基本信息
参数名
是否必填
说明
数据源名称
是
数据源名称,可自定义,不能包含字符、数字、汉字之外的特殊字符。
数据源类型
是
选择BigQuery数据源类型。
数据源连接类型
是
选择网络连接。
网络连接
是
选择在MaxCompute控制台新增的VPC网络信息。详情请参见准备工作。
服务账号密钥文件
是
BigQuery服务账号的密钥文件。
您可以通过BigQuery IAM控制台创建服务账号,下载鉴权JSON,详情请参见服务账号概述。
项目 ID
是
待迁移的BigQuery项目名称。
用于执行Maxcompute Sql的Project
是
选择目标执行迁移作业的项目。
其他信息
您可以根据需要,选择填写以下参数。
参数名
说明
范围分区表迁移方式
BigQuery范围分区表迁移方式,当前只支持迁移到MaxCompute分区表。
默认值为Partition。
压缩类型
BigQuery数据的压缩类型。
Bignumeric 类型默认 precision
BigQuery Bignumeric类型数据的精度值,默认值为38。
Bignumeric 类型默认 scale
BigQuery Bignumeric类型数据的小数位数,默认值为18。
Spark 任务额外配置(json格式)
迁移作业(Spark作业)的额外参数。
MC Auto Partition
自动分区(暂不支持,请先关闭)。
Force the Use of Append 2.0 Table
强制目标表使用Append2.0(暂不支持,请先关闭)。
BigQuery Execution Project
BigQuery端执行作业的Project名称。
Metastore定时更新
数据源元数据是否定时拉取。取值说明如下:
启用:定时拉取,支持每天和每小时。
说明每天:定时器每天运行一次,运行时刻为选定的24小时内的某一时间(精确到分钟)。
每小时:定时器每小时运行一次,运行时刻为选定的60分钟内的某一分钟。
禁用:不定时拉取。
Metastore访问并发量
访问MaxCompute MetaStore的并发量,用于提高获取MaxCompute元数据的速度。
库白名单
需要迁移的BigQuery数据库,多个库之间以半角逗号(,)分隔。
库黑名单
不需要迁移的BigQuery数据库,多个库之间以半角逗号(,)分隔。
表黑名单
不需要迁移的BigQuery数据表。
单个表的格式为
dbname.tablename
,多个表之间以半角逗号(,)分隔。表白名单
需要迁移的BigQuery数据表。
单个表的格式为
dbname.tablename
,多个表之间以半角逗号(,)分隔。MaxCompute 迁移任务sql参数
SQL参数。关于Flag参数详情,请参见Flag参数列表。
表名字符转换配置
表名字符映射,如BigQuery的表名中的中划线
-
映射为MaxCompute表名下划线_
。
单击新增,完成数据源的新增。
数据源新增完成后,您可以在数据源页签,查看已新增的数据源。
启动数据源并同步元数据
数据源创建完成后,您需要启动数据源并同步元数据。数据源启动后会生成一个作业实例,实现数据源与MMS服务的连接,再将源数据同步至MMS服务,以便后续的迁移作业的配置。
该作业实例会占用4 CU计算资源。当数据源无任何等待运行或正在运行的迁移作业或元数据同步作业时,系统会关闭数据源。若您需要使用,需再次启动。
在数据源页签,单击目标数据源操作列中的启动实例。
在弹出的对话框中,单击确定,进行启动。
待启动完成后,单击目标数据源操作列中的同步元数据。
说明若数据源的元数据存在变动,且您启用了Metastore定时更新,系统会按照配置的时间定时更新,无需再进行元数据同步操作。