LogHub(SLS)单表实时同入湖至OSS-HDFS

本文以SLS为源端,OSS-HDFS为目标端场景为例,为您介绍如何把SLS的某个Logstore数据实时同步到OSS-HDFS入湖。

使用限制

仅支持Serverless资源组。Serverless资源组的使用可参见使用Serverless资源组

前提准备

创建同步任务

  1. 新建同步任务。

    1. 进入数据集成页面。

      登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

    2. 单击同步任务,进入数据集成页面,在创建同步任务来源侧选择LogHub(SLS),在去向侧选择OSS-HDFS后,单击开始创建,进入同步任务编辑页面。

  2. 编辑同步任务。

    1. 基本配置

      • 数据来源与去向来源侧选择LogHub(SLS),在去向侧选择OSS-HDFS。

      • 新任务名称:自定义命名。

      • 同步类型单表实时

      • 同步步骤结构迁移增量同步

    2. 网络与资源配置

      • 资源组:选择前提准备中准备的Serverless资源组。

      • 来源数据源:选择对应的LogHub(SLS)数据源。

      • 去向数据源:选择对应的OSS-HDFS数据源。

      配置完以上模块后,单击测试所有连通性,测试数据源与资源组中的连通性。image

    配置完成后,单击下一步,继续进行集成配置。

  3. LogHub(SLS)来源侧配置。

    单击选择LogHub(SLS)来源,编辑LogHub(SLS)来源信息。

    image

    1. LogHub(SLS)来源信息。

      • logstore:选择需要同步的logstore。

      • 数据采样:单击数据采样后,可在数据输出预览的弹窗内对logstore中的数据进行采样,预览获取到的日志信息。

        image

    2. 输出字段配置。

      在选择logstore后,会自动加载该logstore中的数据,生成相应的字段名。可进行调整数据类型删除以及手动增加输出字段

      说明

      如果配置或者字段在SLS中不存在,则对应字段向下游输出为NULL。

  4. OSS-HDFS去向侧配置。

    单击页面上方的OSS,编辑OSS去向源信息。

    image

    1. 基本信息配置。

      • 目标元数据库类型:如果您当前账号下开通了DLF产品,支持同步数据入湖时自动在DLF构建对应的元数据库和元数据表信息。

        说明

        不支持跨地域构建元数据。

      • 目标库:选择数据写入的目标数据库,支持您单击右侧的新建库创建DLF元数据库。

      • 目标表:选择要写入的OSS表是自动建表还是使用已有表

      • 表名:填写或者选择要写入的OSS表名。

      • OSS存储路径选择:选择入湖后数据存储在OSS的哪个路径下。

    2. 编辑建表结构。

      当选择自动建表时,您需要单击编辑表结构按钮,在弹框中编辑建表结构。同时,支持您单击根据上游节点输出列重新生成表结构按钮,自动根据上游节点输出列,生成表结构。您可以在自动生成的表结构中选择一列配置为主键。

    3. 配置字段映射。

      保存建表结构或者选择使用已有表时,系统会自动按照同名映射原则生成上游列与OSS表列之间的映射,您可根据需要进行调整,支持一个上游列映射到多个OSS表列,不允许多个上游列映射到一个OSS表列,当上游列未配置到OSS表列的映射时,对应列不会写入OSS表。

    4. 配置OSS-HDFS侧配置后,即可单击模拟运行,来预览该实时任务写入目标端的数据内容。image

      数据无法写入目标端时(例如类型转换失败),可在本预览窗口中看到数据写入失败的原因。

  5. 高级参数配置(可选)。

    单击右上角的高级参数配置可以对任务行为进行控制,系统默认配置会根据当前的任务配置,自动设置对应参数。也支持自定义高级参数,来对Worker数单Worker并发数全局flush间隔(秒)failover重启策略的失败次数阈值以及failover重启策略的时间窗口(分钟)进行配置。

    以下为各个参数的详细介绍:

    参数名称

    赋值范围

    说明

    自动设置运行时配置

    • 默认值为:true

    • 取值范围:true、false

    根据任务配置自动为所有运行时配置项赋值。

    Worker数

    • 最小值:1

    • 最大值:100

    任务启动Worker总数。

    单Worker并发数

    • 最小值:1

    • 最大值:100

    每个Worker启动的线程总数。

    全局flush间隔(秒)

    • 默认值:60

    • 最小值:60

    • 最大值:180

    全局flush间隔,单位秒,增大该参数可以提升同步性能,但是会让数据在目标表中可见的延迟增大。

    failover重启策略的失败次数阈值

    • 默认值:3

    • 最小值:1

    • 最大值:100

    failover重启策略的失败次数阈值。

    failover重启策略的时间窗口(分钟)

    • 默认值:30

    • 最小值:1

    • 最大值:60

    failover重启策略的时间窗口(分钟)。

任务运维

启动同步任务

完成配置之后,界面会自动跳转到任务列表页面,您可以单击对应任务的操作列的启动按钮,启动同步任务。

image

查看任务运行状态

创建完成同步任务后,您可以在同步任务页面,找到已创建的同步任务,单击任务名称执行概况空白处,查看任务的运行详情。任务详情分为三个部分:

  • 基本信息:您可以查看同步任务的数据源信息、绑定的资源组等信息。

  • 执行状态:LogHub(SLS)到OSS-HDFS的同步任务分为结构迁移实时数据同步两个步骤,您可以查看任务执行状态。

  • 详细信息:您可以查看结构迁移以及实时同步的执行详情。

    • 结构迁移中包含目标表的创建方式(已有表或自动建表),如果是自动建表,将会为您展示建表的DDL。

    • 实时同步中包含实时同步的统计信息,包含实时的运行信息、DDL记录、报警信息等。

任务重跑

  • 直接重跑。

    不修改任务配置,直接单击同步任务操作列的更多 > 重跑操作,重跑一次任务。

  • 修改后重跑。

    编辑任务,进行修改操作后,单击完成。此时任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。实时同步任务会按照新的配置运行。