批量上云是帮您提升效率、降低使用成本的一种快捷工具,它可以快速把MySQL、Oracle、SQL Server数据库内的所有表一并上传至MaxCompute中,节省大量初始化数据上云的批量任务创建时间。

您可以灵活地配置表名转换、字段名转换、字段类型转换、目标表新增字段、目标表字段赋值、数据过滤、目标表名前缀等规则,来满足您的业务需求。

您可以进入数据集成 > 批量上云页面,查看您配置的批量上云任务。
批量上云任务
说明
  • 批量上云列表中,操作栏下的日志规则只能查看不能修改。
  • 如果您提交规则后,没有提交任务,则没有运行时间,并且此配置规则无效。

操作步骤

  1. 单击批量上云页面右上角的新建批量快速上云
  2. 选择同步的数据源。
    选择添加成功的同步数据源,此处可以选择多个数据源并且数据源类型相同,例如均是MySQL、Oracle或SQL Server,详情请参见批量添加数据源
    选择同步的数据源
  3. 配置同步规则。
    您可以根据自身需求选择相应的规则配置,然后执行规则,并检查DDL和同步脚本确认规则效果。
    配置同步规则
    说明
    • 如果界面中的规则无法满足您的需求,可以尝试脚本模式。
    • 配置完规则后,您必须执行规则提交任务,否则您配置的规则在刷新或关闭浏览器后没有相关的记录。
    • 如果您需要在批量上云时对表前缀进行设置,请参见批量上云时给目标表名加上前缀
    操作 配置 说明
    添加规则 目标表分区字段规则 展现分区的内容,符合调度参数配置,详情请参见参数配置
    表名转换规则 选择您的数据库表名的任何词,转换成您需要的内容。
    字段名转换规则 选择您的表中字段名的任何词,转换成您需要的内容。
    字段类型转换规则 选择您的数据源表中具有的数据类型,转换成您需要的数据类型。
    目标表新增字段规则 可以在MaxCompute表中增加一列,根据您的需求设置名称。
    目标表字段赋值规则 给您增加的字段赋值。
    数据过滤规则 针对您选择的数据源,对表中的数据进行过滤。
    目标表名前缀规则 给表名添加一个前缀。
    转为脚本 配置规则时可以转为脚本模式配置,与UI模式相比,单个规则可以指定作用范围。但UI模式转为脚本模式后,无法反向转换回UI配置模式。
    重置脚本 转换脚本后才能重置脚本,单击后提供统一的脚本模板。
    执行规则 单击执行规则,可以看到规则对DDL脚本和同步脚本的影响,此按钮不会创建任务,仅提供DDL和同步脚本的预览。

    您可以选择一部分表检查对应的DDL和同步脚本,确认是否符合规则。

  4. 选择要同步的表并提交。
    您可以选择多个表进行批量提交,MaxCompute表会根据上面配置规则生成。如果执行失败,将鼠标放到执行结果上,会提示相关的原因。
    提交
    配置 说明
    DDL 单击后可以查看相关建表语句,只能查看不能修改。
    同步配置 单击后可以查看您配置的任务,以脚本模式展现。
    查看表 单击后可以查看MaxCompute建表的具体情况。
    查看任务 提交成功后,您可以进入数据开发 > 业务流程页面,查看您的批量上云任务。
  5. 查看任务。
    您选择几个数据源,便会产生几个业务流程,通常命名规则是clone_database_数据源名。每张表会产生一个同步任务,命名规则是数据源名2odps_表名。
    命名
    1. 选择数据源:根据批量上云生成的MySQL同步至MaxCompute(ODPS)的同步任务,数据过滤条件在配置数据过滤规则后产生。
      任务配置
    2. 字段映射:目标端是根据您配置相关字段规则而产生,可以根据您配置的规则进行查看。
      字段映射
    3. 通道配置。
      通道控制
      配置 说明
      任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
      同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
      错误记录数 错误记录数,表示脏数据的最大容忍条数。
      任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源新增任务资源
      说明 任务的具体配置请参见配置Reader插件配置Writer插件
  6. 运行任务。

    直接单击运行,同步任务会立刻运行。您也可以单击提交,将同步任务提交到调度系统中,调度系统会按照配置属性在从第二天开始自动定时执行,详情请参见调度配置

说明
  • 简单模式:提交之后直接到生产环境。
  • 标准模式:提交后到开发环境,然后发布到生产环境。