通过数据迁移服务MMS(MaxCompute Migration Service)迁移数据前,需新增并启动BigQuery数据源,确保数据源与MMS服务网络连通,并将BigQuery的元数据同步至MMS服务,以便配置后续的迁移作业。
迁移费用
MMS数据迁移会消耗各类资源从而产生消费,主要组成费用如下:
|
MMS操作 |
计费项 |
收费方 |
|
计算费用:MaxCompute端产生Spark作业消耗计算资源。 |
阿里云 MaxCompute |
|
源端数据存储 |
存储费用:若使用OSS/S3等对象存储,源端访问存储文件时产生。 |
BigQuery |
|
若迁移任务配置了“开启校验” |
计算费用:在Hive和MaxCompute分别执行校验SQL语句产生。 |
阿里云 MaxCompute和BigQuery |
|
网络配置 |
网络费用:
|
专线提供方或阿里云网络 |
操作步骤
目标端MaxCompute项目已完成准备工作。
步骤一:外部数据源准备
在源端BigQuery,完成以下操作:
-
已创建BigQuery服务账号,并已下载鉴权JSON。
-
已创建BigQuery项目,并已经将该项目相关的读元数据、数据等权限授权给该BigQuery服务账号。
步骤二:新增数据源
-
登录MaxCompute控制台,在左上角选择地域。
-
在左侧导航栏,选择。
-
在数据源页签,单击新增数据源。
在弹出的MaxCompute服务关联角色对话框中,单击确认,即可创建成功。若未自动弹出该对话框,则表明该角色已创建。
在新增数据源页面,配置数据源信息,然后单击新增,完成数据源创建。
-
数据源基本信息
参数名
是否必填
说明
数据源名称
是
数据源名称,可自定义,不能包含字符、数字、汉字之外的特殊字符。
数据源类型
是
选择BigQuery。
网络连接
是
选择需要使用的网络连接。
网络连接在MaxCompute 模块创建,用于MMS与VPC通信,最终连接数据源。
服务账号密钥文件
是
BigQuery服务账号的密钥文件。
可以通过BigQuery IAM控制台创建服务账号,下载鉴权JSON文件,详情请参见服务账号概述。
项目 ID
是
待迁移的BigQuery项目名称。
默认目标MaxCompute项目
是
数据迁移时选择映射的目标项目,不可修改。
目标MaxCompute项目列表
否
若一个数据源的数据需要迁移到多个目标项目,需配置目标MaxCompute项目列表。
MaxCompute执行迁移作业的项目
是
迁移过程中,执行在MaxCompute上发起的Spark、SQL等迁移作业的项目,并使用该项目关联的默认计算Quota。
-
其他信息
以下参数均非必填,根据需要填写。
参数名
说明
范围分区表迁移方式
BigQuery范围分区表迁移方式。
-
默认值为Partition。
-
Cluster。
压缩类型
BigQuery数据的压缩类型。
Bignumeric 类型默认 precision
BigQuery Bignumeric类型数据的精度值,默认值为38。
Bignumeric 类型默认 scale
BigQuery Bignumeric类型数据的小数位数,默认值为18。
MC Auto Partition
自动分区(暂不支持,请先关闭)。
Force the Use of Append 2.0 Table
强制目标表使用Append2.0(暂不支持,请先关闭)。
BigQuery Execution Project
BigQuery端执行作业的Project名称。
Metastore定时更新
数据源元数据是否定时拉取。取值说明如下:
-
启用:定时拉取,更新周期支持每天和每小时,支持配置更新开始时间。
-
每日更新:定时器每天运行一次,运行时刻为选定的24小时内的某一时间(精确到分钟)。
-
每小时更新:定时器每小时运行一次,运行时刻为选定的60分钟内的某一分钟。
-
-
禁用:不定时拉取。
Metastore访问并发量
访问MaxCompute MetaStore的并发量,用于提高获取MaxCompute元数据的速度。
库白名单
需要迁移的BigQuery数据库,多个库之间以半角逗号(,)分隔。
库黑名单
不需要迁移的BigQuery数据库,多个库之间以半角逗号(,)分隔。
表黑名单
不需要迁移的BigQuery数据表。
单个表的格式为
dbname.tablename,多个表之间以半角逗号(,)分隔。表白名单
需要迁移的BigQuery数据表。
单个表的格式为
dbname.tablename,多个表之间以半角逗号(,)分隔。数据搬迁任务最大并发量
根据需要配置。
MaxCompute迁移任务sql参数
SQL参数。参考Flag参数列表。
表名字符转换配置
表名字符映射,如BigQuery的表名中的中划线
-映射为MaxCompute表名下划线_。 -
-
步骤三:同步元数据
数据源启动后会生成一个作业实例,实现数据源与MMS服务的连接,再将源数据同步至MMS服务,以便配置后续迁移作业。
该作业实例会占用4 CU计算资源。当数据源无任何等待运行或正在运行的迁移作业或元数据同步作业时,系统会关闭数据源,使用时需再次启动。
-
在数据源页签,单击目标数据源对应的操作列的更新元数据。
-
在数据源页签,可以查看目标数据源的运行状态。
-
若数据源的元数据存在变动,且启用了元数据定时更新,系统会按照配置的时间定时更新,无需手动进行元数据同步操作。
外部数据源配置完成后,创建迁移作业。