配置MaxCompute数据源

更新时间:2025-04-10 09:14:17

通过数据迁移服务MMS(MaxCompute Migration Serverless)进行数据迁移前,需新增数据源并启动,以确保与MMS服务的网络连接,并将数据源的元数据同步至MMS服务,以便进行后续的迁移作业配置。

前提条件

  • 已完成准备工作

  • 已完成以下授权:

    • 同管控同账号同站点:需给服务关联角色(AliyunServiceRoleForMaxComputeMMS)配置MaxCompute源项目的相关数据操作权限。

    • 同管控跨账号同站点:

      • 源端项目需创建服务关联角色(AliyunServiceRoleForMaxComputeMMS),并配置MaxCompute源端项目的相关数据操作权限,以便MMS获取源端元数据信息。

      • 源端项目需通过Package授权方式给目标端服务账号授权数据读取权限,包括select、describe权限。

    说明

    中国站的北京、上海、杭州、深圳、成都、张家口、乌兰察布几个公共云区域为同管控。

新增数据源

  1. 登录MaxCompute控制台,在左上角选择目标地域。

  2. 在左侧导航栏,选择数据传输 > 迁移服务

  3. 数据源页签,单击新增数据源,配置数据源参数。

    • 基本信息

      参数名

      是否必填

      说明

      参数名

      是否必填

      说明

      数据源名称

      数据源名称,可自定义,不能包含字符、数字、汉字之外的特殊字符。

      数据源类型

      选择MaxCompute数据源类型。

      数据源连接类型

      选择网络连接

      网络连接

      选择在MaxCompute控制台新增的VPC网络信息。详情请参见准备工作

      MaxCompute区域

      选择数据源所在的区域。

      阿里云uid

      源项目Owner阿里云账号ID。

      MaxCompute源项目

      待迁移的项目名称。

      用于执行Maxcompute SqlProject

      选择目标执行迁移作业的项目。

    • 其他信息

      您可以根据需要,选择填写以下参数。

      参数名

      说明

      参数名

      说明

      MaxCompute 迁移任务sql参数, 仅用于"同region项目迁移"

      SQL参数。

      Metastore定时更新

      数据源元数据是否定时拉取。取值说明如下:

      • 启用:定时拉取,支持每天和每小时。

        说明
        • 每天:定时器每天运行一次,运行时刻为选定的24小时内的某一时间(精确到分钟)。

        • 每小时:定时器每小时运行一次,运行时刻为选定的60分钟内的某一分钟。

      • 禁用:不定时拉取。

      元数据访问并发量

      访问MaxCompute MetaStore的并发量,用于提高获取MaxCompute元数据的速度。

      Schema白名单

      需要迁移的Schema,多个值之间以半角逗号(,)分隔。

      Schema黑名单

      不需要迁移的Schema,多个值之间以半角逗号(,)分隔。

      Table黑名单

      不需要迁移的MaxCompute数据表。

      单个表的格式为schema.tabletable,多个表之间以半角逗号(,)分隔。

      Table白名单

      需要迁移的MaxCompute数据表。

      单个表的格式为schema.tabletable,多个表之间以半角逗号(,)分隔。

      数据搬迁任务最大并发量

      数据迁移并发量,默认为20。

      单个任务处理的最多分区数量

      默认50。即一次MMA任务迁移的分区数量,通过批量的分区迁移,可以减少提交SQL的次数,节约SQL提交时间。

  4. 单击新增,完成数据源的新增。

    数据源新增完成后,您可以在数据源页签,查看已新增的数据源。

    image

启动数据源并同步元数据

数据源创建完成后,您需要启动数据源并同步元数据。数据源启动后会生成一个作业实例,实现数据源与MMS服务的连接,再将源数据同步至MMS服务,以便后续的迁移作业的配置。

说明

该作业实例会占用4 CU的计算资源,完成迁移后建议停止。

  1. 数据源页签,单击目标数据源操作列中的启动实例

  2. 在弹出的对话框中,单击确定,进行启动。

  3. 待启动完成后,单击目标数据源操作列中的同步元数据

    说明

    若数据源的元数据存在变动,且您启用了Metastore定时更新,系统会按照配置的时间定时更新,无需再进行元数据。

后续步骤

创建MaxCompute迁移作业

  • 本页导读 (1)
  • 前提条件
  • 新增数据源
  • 启动数据源并同步元数据
  • 后续步骤
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等