本文以SLS为源端,OSS-HDFS为目标端场景为例,为您介绍如何把SLS的某个Logstore数据实时同步到OSS-HDFS入湖。
使用限制
仅支持Serverless资源组。Serverless资源组的使用可参见使用Serverless资源组。
前提准备
创建LogHub(SLS)数据源可参见:LogHub(SLS)数据源。
创建OSS-HDFS数据源可参见:OSS-HDFS数据源。
Serverless数据源网络打通可参见:网络连通方案。
创建同步任务
新建同步任务。
进入数据集成页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据集成。
单击同步任务,进入数据集成页面,在创建同步任务来源侧选择LogHub(SLS),在去向侧选择OSS-HDFS后,单击开始创建,进入同步任务编辑页面。
编辑同步任务。
基本配置:
数据来源与去向:来源侧选择LogHub(SLS),在去向侧选择OSS-HDFS。
新任务名称:自定义命名。
同步类型:单表实时。
同步步骤:结构迁移、增量同步。
网络与资源配置:
资源组:选择前提准备中准备的Serverless资源组。
来源数据源:选择对应的LogHub(SLS)数据源。
去向数据源:选择对应的OSS-HDFS数据源。
配置完以上模块后,单击测试所有连通性,测试数据源与资源组中的连通性。
配置完成后,单击下一步,继续进行集成配置。
LogHub(SLS)来源侧配置。
单击选择LogHub(SLS)来源,编辑LogHub(SLS)来源信息。
LogHub(SLS)来源信息。
logstore:选择需要同步的logstore。
数据采样:单击数据采样后,可在数据输出预览的弹窗内对logstore中的数据进行采样,预览获取到的日志信息。
输出字段配置。
在选择logstore后,会自动加载该logstore中的数据,生成相应的字段名。可进行调整数据类型、删除以及手动增加输出字段。
说明如果配置或者字段在SLS中不存在,则对应字段向下游输出为NULL。
OSS-HDFS去向侧配置。
单击页面上方的OSS-HDFS,编辑OSS-HDFS去向源信息。
基本信息配置。
目标元数据库类型:如果您当前账号下开通了DLF产品,支持同步数据入湖时自动在DLF构建对应的元数据库和元数据表信息。
说明不支持跨地域构建元数据。
目标库:选择数据写入的目标数据库,支持您单击右侧的新建库创建DLF元数据库。
目标表:选择要写入的OSS表是自动建表还是使用已有表。
表名:填写或者选择要写入的OSS表名。
OSS存储路径选择:选择入湖后数据存储在OSS的哪个路径下。
编辑建表结构。
当选择自动建表时,您需要单击编辑表结构按钮,在弹框中编辑建表结构。同时,支持您单击根据上游节点输出列重新生成表结构按钮,自动根据上游节点输出列,生成表结构。您可以在自动生成的表结构中选择一列配置为主键。
配置字段映射。
保存建表结构或者选择使用已有表时,系统会自动按照同名映射原则生成上游列与OSS表列之间的映射,您可根据需要进行调整,支持一个上游列映射到多个OSS表列,不允许多个上游列映射到一个OSS表列,当上游列未配置到OSS表列的映射时,对应列不会写入OSS表。
配置OSS-HDFS侧配置后,即可单击模拟运行,来预览该实时任务写入目标端的数据内容。
数据无法写入目标端时(例如类型转换失败),可在本预览窗口中看到数据写入失败的原因。
高级参数配置(可选)。
单击右上角的高级参数配置可以对任务行为进行控制,系统默认配置会根据当前的任务配置,自动设置对应参数。也支持自定义高级参数,来对Worker数、单Worker并发数、全局flush间隔(秒)、failover重启策略的失败次数阈值以及failover重启策略的时间窗口(分钟)进行配置。
以下为各个参数的详细介绍:
参数名称
赋值范围
说明
自动设置运行时配置
默认值为:true
取值范围:true、false
根据任务配置自动为所有运行时配置项赋值。
Worker数
最小值:1
最大值:100
任务启动Worker总数。
单Worker并发数
最小值:1
最大值:100
每个Worker启动的线程总数。
全局flush间隔(秒)
默认值:60
最小值:60
最大值:180
全局flush间隔,单位秒,增大该参数可以提升同步性能,但是会让数据在目标表中可见的延迟增大。
failover重启策略的失败次数阈值
默认值:3
最小值:1
最大值:100
failover重启策略的失败次数阈值。
failover重启策略的时间窗口(分钟)
默认值:30
最小值:1
最大值:60
failover重启策略的时间窗口(分钟)。
任务运维
启动同步任务
完成配置之后,界面会自动跳转到任务列表页面,您可以单击对应任务的操作列的启动按钮,启动同步任务。
查看任务运行状态
创建完成同步任务后,您可以在同步任务页面,找到已创建的同步任务,单击任务名称或执行概况空白处,查看任务的运行详情。任务详情分为三个部分:
基本信息:您可以查看同步任务的数据源信息、绑定的资源组等信息。
执行状态:LogHub(SLS)到OSS-HDFS的同步任务分为结构迁移和实时数据同步两个步骤,您可以查看任务执行状态。
详细信息:您可以查看结构迁移以及实时同步的执行详情。
结构迁移中包含目标表的创建方式(已有表或自动建表),如果是自动建表,将会为您展示建表的DDL。
实时同步中包含实时同步的统计信息,包含实时的运行信息、DDL记录、报警信息等。
任务重跑
直接重跑。
不修改任务配置,直接单击同步任务操作列的
操作,重跑一次任务。修改后重跑。
编辑任务,进行修改操作后,单击完成。此时任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。实时同步任务会按照新的配置运行。