本文以SLS为源端,Data Lake Formation 2.0 为目标端场景为例,为您介绍如何把SLS的某个Logstore数据实时同步到Data Lake Formation 2.0 入湖。
使用限制
仅支持Serverless资源组。Serverless资源组的使用可参见使用Serverless资源组。
前提准备
创建LogHub(SLS)数据源可参见:LogHub(SLS)数据源。
创建Data Lake Formation 2.0数据源可参见:Data Lake Formation 2.0 数据源。
Serverless数据源网络打通可参见:网络连通方案。
创建同步任务
新建同步任务。
进入数据集成页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据集成。
单击同步任务,进入数据集成页面,在创建同步任务来源侧选择LogHub(SLS),在去向侧选择Data Lake Formation 2.0后,单击开始创建,进入同步任务编辑页面。
编辑同步任务。
基本配置:
数据来源与去向:来源侧选择LogHub(SLS),在去向侧选择Data Lake Formation 2.0 。
新任务名称:自定义命名。
同步类型:单表实时。
同步步骤:默认选择结构迁移、增量同步。
网络与资源配置:
资源组:选择前提准备中准备的Serverless资源组。
来源数据源:选择对应的LogHub(SLS)数据源。
去向数据源:选择对应的Data Lake Formation 2.0 数据源。
配置完以上模块后,单击测试所有连通性,测试数据源与资源组中的连通性。
配置完成后,单击下一步,继续进行集成配置。
LogHub(SLS)来源侧配置。
单击选择LogHub(SLS)来源,编辑LogHub(SLS)来源信息。
LogHub(SLS)来源信息。
logstore:选择需要同步的logstore。
数据采样:单击数据采样后,可在数据输出预览的弹窗内对logstore中的数据进行采样,预览获取到的日志信息。
输出字段配置。
在选择logstore后,会自动加载该logstore中的数据,生成相应的字段名。可进行调整数据类型、删除以及手动增加输出字段。
说明如果配置或者字段在SLS中不存在,则对应字段向下游输出为NULL。
Data Lake Formation 2.0 去向侧配置。
单击页面上方的Data Lake Formation 2.0 ,编辑Data Lake Formation 2.0 去向源信息,详情可参见如下内容:
去向信息配置:
参数
说明
元数据目录
默认为创建Data Lake Formation 2.0 数据源时配置的DLF数据目录(Catalog)。
写入格式
默认为创建Data Lake Formation 2.0 数据源时的数据格式类型。例如:PAIMON
目标库
默认为创建Data Lake Formation 2.0 数据源时选择的数据库名称。
目标表
支持自动建表和使用已有表。
表名
目标表选择自动建表时,可通过编辑表名与编辑表结构,对创建的表进行调整。调整好表结构后,即可单击保存,形成新表格与来源表字段映射的预览。
目标表选择已有表时,可通过单击查看表结构,查看已选表结构的详细信息。选择好表后,即可查看表格与来源表字段映射的预览。
字段映射配置:
保存建表结构或者选择使用已有表时,系统会自动按照同名映射原则生成上游列与Data Lake Formation 2.0 表字段之间的映射,您可根据需要进行调整,支持一个上游列映射到多个Data Lake Formation 2.0 表字段,不允许多个上游列映射到一个Data Lake Formation 2.0 表字段,当上游列未配置到Data Lake Formation 2.0 表字段的映射时,对应列不会写入OSS表。
配置完成Data Lake Formation 2.0 去向侧后,即可单击模拟运行,来预览该实时任务写入目标端的数据内容。
数据无法写入目标端时(例如类型转换失败),可在本预览窗口中看到数据写入失败的原因。
高级参数配置(可选)
单击右上角的高级参数配置可以对任务行为进行控制,系统默认配置会根据当前的任务配置,自动设置对应参数。也支持自定义高级参数,来对Worker数、单Worker并发数、全局flush间隔(秒)、failover重启策略的失败次数阈值以及failover重启策略的时间窗口(分钟)进行配置。
以下为各个参数的详细介绍:
参数名称
赋值范围
说明
自动设置运行时配置
默认值为:true
取值范围:true、false
根据任务配置自动为所有运行时配置项赋值。
Worker数
最小值:1
最大值:100
任务启动Worker总数。
单Worker并发数
最小值:1
最大值:100
每个Worker启动的线程总数。
全局flush间隔(秒)
默认值:60
最小值:60
最大值:180
全局flush间隔,单位秒,增大该参数可以提升同步性能,但是会让数据在目标表中可见的延迟增大。
failover重启策略的失败次数阈值
默认值:3
最小值:1
最大值:100
failover重启策略的失败次数阈值。
failover重启策略的时间窗口(分钟)
默认值:30
最小值:1
最大值:60
failover重启策略的时间窗口(分钟)。
任务运维
启动同步任务
完成配置之后,界面会自动跳转到任务列表页面,您可以单击对应任务的操作列的启动按钮,启动同步任务。
查看任务运行状态
创建完成同步任务后,您可以在同步任务页面,找到已创建的同步任务,单击任务名称或执行概况空白处,查看任务的运行详情。任务详情分为三个部分:
基本信息:您可以查看同步任务的数据源信息、绑定的资源组等信息。
执行状态:LogHub(SLS)到Data Lake Formation 2.0 的同步任务分为结构迁移和实时数据同步两个步骤,您可以查看任务执行状态。
详细信息:您可以查看结构迁移以及实时同步的执行详情。
结构迁移中包含目标表的创建方式(已有表或自动建表),如果是自动建表,将会为您展示建表的DDL。
实时同步中包含实时同步的统计信息,包含实时的运行信息、DDL记录、报警信息等。
任务重跑
直接重跑。
不修改任务配置,直接单击同步任务操作列的
操作,重跑一次任务。修改后重跑。
编辑任务,进行修改操作后,单击完成。此时任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。实时同步任务会按照新的配置运行。