本文以MySQL实时入湖写入至OSS场景为例,为您介绍如何通过数据集成实时入湖。
前提条件
已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组。
已完成MySQL和OSS数据源配置,以便在同步任务配置时,可通过选择数据源名称来控制同步读取和写入的数据库。配置数据源的操作详情请参见配置MySQL数据源、配置OSS数据源。
已完成数据源环境准备。来源数据源为MySQL时,您需要开启Binlog相关功能,详情请参见MySQL环境准备。
使用限制
源端主键列值,不允许为空(null或空字符串均不支持),否则会导致同步任务报错。
整库实时入湖能力简介
支持将源端数据源MySQL的数据结构迁移到OSS数据湖,且支持选择将历史存量数据(整库或部分表)一次性同步至OSS数据湖,增量数据实时同步至OSS数据湖。
支持源端新建表、新增列的DDL操作,同步过程中可根据源端数据库表数量、列数量的变化自动更新。
重要暂不支持源端其他DDL(删除表、重命名表等)操作,会导致同步任务失败。
如果您在同地域有已开通的DLF,支持同步数据入湖时自动在DLF构建对应的元数据库和元数据表信息。
说明不支持跨地域构建元数据。
创建同步任务
选择同步方案。
创建同步解决方案任务,选择需要同步的源端数据源MySQL,目标端数据源OSS,并选择整库实时入湖方案。
配置网络连通。
源端选择已创建的MySQL数据源,目标数据源为已创建的OSS数据源,同步资源组选择已创建的独享数据集成资源组,单击测试所有连通性,待界面提示测试完成且所有连通状态均为网络连通,根据界面提示进行后续操作。
选择要同步的库表。
配置页面的左侧为选择要同步库表的限定条件,用于过滤选择待同步的数据库、数据表。
配置页面的右侧为源端数据库表的预览,是根据上述步骤中配置的数据源预览出来的待同步的数据库表和已选择好要同步的数据库表的预览情况。
您可根据待同步的源端数据库表的数量,参考以下操作建议,快速选择要同步的库表。
如果您的数据库表数量不多,您可以直接在右侧预览模块手动勾选待同步的数据库表,然后添加到已选库表中,此时页面会根据您的勾选情况自动在左侧添加限定条件。
如果您有多个数据源、数据库、数据表,您可以在左侧手动添加限定条件来进行过滤,或者在右侧页面的搜索框中通过关键词搜索出对应的库表进行添加或删除的操作。
入湖配置。
OSS存储路径选择:选择入湖后数据存储在OSS的哪个路径下。
选择元数据库自动构建位置:您可以选择是否要自动构建元数据库至DLF。
说明仅支持将元数据库构建至同地域的DLF中。
元数据库名称前缀:元数据库是根据来源库名自动建立,但是可以手工指定元数据库的名称前缀。指定的前缀,将会应用到所有库中。比如,定义的前缀为“abc_”,那么来源库名在数据湖中的元数据库就会自动加上此前缀,如"abc_my_db",“abc_test_table” 等等,此时体现在OSS路径就会是 “oss://zhangsan/my_folder/abc_my_db/abc_test_table”。
分区信息
设置数据入湖存储时的分区,后续入湖同步写入数据时,根据来源端数据的写入时间落入相应的分区里。分区设置注意事项如下:
支持使用${yyyy}(年)、${MM}(月)、${dd}(日)、${HH}(时)这些变量,最小粒度到小时,不支持分钟、秒的时间粒度。
支持将变量结合字符串拼接组合。例如将变量与下划线拼接组合:${yyyy}_${MM}_${dd}_${HH}。
支持设置多个分区使写入的数据表为多级分区表,分区级别与此处设置的分区顺序一致。
报警配置。
您可以单击右上角的报警配置,根据界面提示配置报警原因、报警方式等信息。
高级参数配置。
您可以单击右上角的高级参数,根据界面提示配置离线任务源端最大连接数、离线任务限流相关参数。
DDL能力配置。
当前仅支持新增表的DDL,不支持其他DDL操作,您可以单击右上角的DDL能力配置指定不同DDL操作的响应。
资源组配置。
您可以在右上角的资源组配置处修改任务运行使用的独享数据集成资源组。
完成上述配置后,您可以单击完成配置,完成同步任务的创建。
执行同步任务
进入 界面,找到已创建的同步方案。
单击操作列的启动/提交执行按钮,启动同步的运行。
单击操作列的执行详情,查看任务的详细执行过程。
同步任务运维
创建完成同步任务后,您可以在同步任务页面查看当前已创建的同步任务列表及各个同步任务的基本信息。
您可以在操作列启动或停止某个同步任务,在更多中可以对同步任务进行编辑、查看详情等操作。
已启动的任务您可以在执行概况中看到任务运行的基本情况,也可以单击对应的概况区域查看执行详情。