LogHub(SLS)单表实时入湖至Data Lake Formation 2.0

本文以SLS为源端,Data Lake Formation 2.0 为目标端场景为例,为您介绍如何把SLS的某个Logstore数据实时同步到Data Lake Formation 2.0 入湖。

使用限制

仅支持Serverless资源组。Serverless资源组的使用可参见使用Serverless资源组

前提准备

创建同步任务

  1. 新建同步任务。

    1. 进入数据集成页面。

      登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

    2. 单击同步任务,进入数据集成页面,在创建同步任务来源侧选择LogHub(SLS),在去向侧选择Data Lake Formation 2.0后,单击开始创建,进入同步任务编辑页面。

  2. 编辑同步任务。

    1. 基本配置

      • 数据来源与去向:来源侧选择LogHub(SLS),在去向侧选择Data Lake Formation 2.0 。

      • 新任务名称:自定义命名。

      • 同步类型:单表实时。

      • 同步步骤:默认选择结构迁移、增量同步。

    2. 网络与资源配置

      • 资源组:选择前提准备中准备的Serverless资源组。

      • 来源数据源:选择对应的LogHub(SLS)数据源。

      • 去向数据源:选择对应的Data Lake Formation 2.0 数据源。

      配置完以上模块后,单击测试所有连通性,测试数据源与资源组中的连通性。

      image

      配置完成后,单击下一步,继续进行集成配置。

  3. LogHub(SLS)来源侧配置。

    单击选择LogHub(SLS)来源,编辑LogHub(SLS)来源信息。

    image

    1. LogHub(SLS)来源信息。

      • logstore:选择需要同步的logstore。

      • 数据采样:单击数据采样后,可在数据输出预览的弹窗内对logstore中的数据进行采样,预览获取到的日志信息。

        image

    2. 输出字段配置。

      在选择logstore后,会自动加载该logstore中的数据,生成相应的字段名。可进行调整数据类型删除以及手动增加输出字段

      说明

      如果配置或者字段在SLS中不存在,则对应字段向下游输出为NULL。

  4. Data Lake Formation 2.0 去向侧配置。

    单击页面上方的Data Lake Formation 2.0 ,编辑Data Lake Formation 2.0 去向源信息,详情可参见如下内容:

    image

    1. 去向信息配置:

      参数

      说明

      元数据目录

      默认为创建Data Lake Formation 2.0 数据源时配置的DLF数据目录(Catalog)。

      写入格式

      默认为创建Data Lake Formation 2.0 数据源时的数据格式类型。例如:PAIMON

      目标库

      默认为创建Data Lake Formation 2.0 数据源时选择的数据库名称。

      目标表

      支持自动建表和使用已有表。

      表名

      • 目标表选择自动建表时,可通过编辑表名与编辑表结构,对创建的表进行调整。调整好表结构后,即可单击保存,形成新表格与来源表字段映射的预览。

      • 目标表选择已有表时,可通过单击查看表结构,查看已选表结构的详细信息。选择好表后,即可查看表格与来源表字段映射的预览。

    2. 字段映射配置:

      保存建表结构或者选择使用已有表时,系统会自动按照同名映射原则生成上游列与Data Lake Formation 2.0 表字段之间的映射,您可根据需要进行调整,支持一个上游列映射到多个Data Lake Formation 2.0 表字段,不允许多个上游列映射到一个Data Lake Formation 2.0 表字段,当上游列未配置到Data Lake Formation 2.0 表字段的映射时,对应列不会写入OSS表。

    3. 配置完成Data Lake Formation 2.0 去向侧后,即可单击模拟运行,来预览该实时任务写入目标端的数据内容。

      image数据无法写入目标端时(例如类型转换失败),可在本预览窗口中看到数据写入失败的原因。

  5. 高级参数配置(可选)

    单击右上角的高级参数配置可以对任务行为进行控制,系统默认配置会根据当前的任务配置,自动设置对应参数。也支持自定义高级参数,来对Worker数单Worker并发数全局flush间隔(秒)failover重启策略的失败次数阈值以及failover重启策略的时间窗口(分钟)进行配置。

    以下为各个参数的详细介绍:

    参数名称

    赋值范围

    说明

    自动设置运行时配置

    • 默认值为:true

    • 取值范围:true、false

    根据任务配置自动为所有运行时配置项赋值。

    Worker数

    • 最小值:1

    • 最大值:100

    任务启动Worker总数。

    单Worker并发数

    • 最小值:1

    • 最大值:100

    每个Worker启动的线程总数。

    全局flush间隔(秒)

    • 默认值:60

    • 最小值:60

    • 最大值:180

    全局flush间隔,单位秒,增大该参数可以提升同步性能,但是会让数据在目标表中可见的延迟增大。

    failover重启策略的失败次数阈值

    • 默认值:3

    • 最小值:1

    • 最大值:100

    failover重启策略的失败次数阈值。

    failover重启策略的时间窗口(分钟)

    • 默认值:30

    • 最小值:1

    • 最大值:60

    failover重启策略的时间窗口(分钟)。

任务运维

启动同步任务

完成配置之后,界面会自动跳转到任务列表页面,您可以单击对应任务的操作列的启动按钮,启动同步任务。

image

查看任务运行状态

创建完成同步任务后,您可以在同步任务页面,找到已创建的同步任务,单击任务名称执行概况空白处,查看任务的运行详情。任务详情分为三个部分:

  • 基本信息:您可以查看同步任务的数据源信息、绑定的资源组等信息。

  • 执行状态:LogHub(SLS)到Data Lake Formation 2.0 的同步任务分为结构迁移实时数据同步两个步骤,您可以查看任务执行状态。

  • 详细信息:您可以查看结构迁移以及实时同步的执行详情。

    • 结构迁移中包含目标表的创建方式(已有表或自动建表),如果是自动建表,将会为您展示建表的DDL。

    • 实时同步中包含实时同步的统计信息,包含实时的运行信息、DDL记录、报警信息等。

任务重跑

  • 直接重跑。

    不修改任务配置,直接单击同步任务操作列的更多 > 重跑操作,重跑一次任务。

  • 修改后重跑。

    编辑任务,进行修改操作后,单击完成。此时任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。实时同步任务会按照新的配置运行。