本文介绍如何通过向导创建SLS的OSS投递数据源发现任务,自动发现您当前区域下所有的Logstore投递到OSS的日志数据(包括新增的投递到OSS的日志数据,以及增量的分区及数据),并自动创建DLA库表映射到投递的OSS日志数据上。

前提条件

当前区域下的SLS已经将日志服务数据投递到OSS。具体操作请参考将日志服务数据投递到OSS

业务场景

企业会把服务日志、行为日志等数据存储在日志服务SLS中,当数据量较大时,可以通过投递的方式把全量数据归档到OSS。以前这些数据不可进行分析计算,使用DLA的元信息发现功能,能够一键构建数据湖的元数据,接入DLA的统一数据分析平台。使用DLA的Serverless Spark及Presto引擎能够计算和分析DLA元数据管理的全域数据,可以支持ETL后数据交付、低频全量日志数据分析、日志数据关联DB数据分析等业务场景。SLS的OSS投递

操作步骤

  1. 登录Data Lake Analytics管理控制台
  2. 在左侧导航栏,单击数据湖管理 > 元信息发现
  3. 元信息发现页面的SLS的OSS投递数据源区域,单击进入向导
    SLS的OSS投递数据源
  4. SLS的OSS投递数据源页签,根据页面提示进行参数配置,配置说明如下:
    创建SLS的OSS投递数据源任务
    参数 说明
    数据源配置 您可以通过以下两种方式选择数据源:
    • 自动发现:您无需做任何配置,自动发现所有Project的OSS投递,当有新的OSS投递设置时,在下一次执行时可以自动发现。
    • 手动选择:当选择该方式时,您需要手动选择logstore。
    调度频率 您可以根据需要设置调度SLS的OSS投递数据源发现任务的周期。
    具体时间 设置SLS的OSS投递数据源发现调度任务的执行时间。
    schema前缀 设置Schema的前缀,即映射到DLA中的数据库名称的前缀。Schema的名称规则为“前缀__Logstore投递的Bucket名称”。
    配置选项 高级自定义设置项,如文件字段变更规则。
  5. 完成上述参数配置后,单击创建,开始创建SLS的OSS投递数据源发现任务。
  6. SLS的OSS投递数据源发现任务创建成功后,单击立即发现开始运行自动发现SLS的OSS投递数据源任务。
    创建成功
    您也可以在任务列表中看到创建成功的任务信息。SLS的OSS投递数据源发现任务将根据您设置的调度频率,需要您手动执行或者定期自动调度该任务。任务列表
    SLS的OSS投递数据源发现任务执行成功后,单击schema名称/前缀列下面的数据库名称链接(如单击muyuantestonline),跳转到Serverless Presto > SQL执行页面。您可以看到DLA自动发现创建成功的库、表、列信息。SQL执行
  7. Serverless Presto > SQL执行页面编写SQL语句,单击同步执行或者异步执行,执行SQL语句。
    例如在muyuantestonline__dla_crawler_hangzhou下执行 select * from `muyuantestonline__dla_crawler_hangzhou`.`sls_crawler_test__csv_full_types` limit 20; SQL执行