在DataWorks中使用DLF Catalog

本文主要介绍从阿里云日志服务SLS导入数据至DLF 2.0 Catalog的步骤,帮助您全面掌握在DataWorks中配置与使用DLF 2.0 Catalog的关键流程,提升数据处理效率与能力。

前提条件

  • 已创建DataWorks工作空间,并选择参加数据开发(Data Studio)(新版)公测。如未创建,详情请参见创建工作空间

  • 已创建日志服务项目和Logstore,详情请参见创建日志服务

  • 已创建DLF 2.0数据目录。如未创建,详情请参见创建数据目录

    说明

    如果是RAM用户,在进行数据操作之前,需要先授予相应的资源权限。详情请参见授权管理

步骤一:添加DLF 2.0数据目录

  1. 登录DataWorks数据开发控制台

  2. 数据开发页面,选择一个参加数据开发(Data Studio)(新版)公测的工作空间,单击进入数据开发

  3. 在左侧菜单栏,单击image图标进入数据目录。

    重要

    如您未找到该图标,请重新选择或创建符合条件的工作空间。详见前提条件说明。

  4. DLF Catalog模块中,单击添加Catalog

  5. 在DLF Catalog列表中,勾选相应的Catalog,单击添加。添加后可在DLF Catalog模块中查看DLF的Catalog、数据库和数据表。

  6. 单击已添加Catalog右侧的image图标,可在该Catalog下新建数据库。

  7. 单击数据库右侧的image图标,可在该数据库下新建表。

步骤二:创建DLF 2.0数据源

  1. 登录DataWorks数据集成控制台

  2. 数据集成页面,选择上述工作空间,单击进入数据集成

  3. 在左侧菜单栏,单击数据源,进入数据源列表页。

  4. 单击新增数据源,在对话框中搜索DLF 2.0数据源,点击添加。

  5. 基础信息中,配置以下信息:

    • 数据源名称:必选,工作空间内唯一。

    • 数据源描述:可选,输入描述信息。

    • 访问身份:必选,支持使用阿里云账号(主账号)、阿里云RAM用户(即子账号)、阿里云RAM角色访问。

    • DLF数据目录:必选,选择上一步添加的Catalog。

    • 数据库名称:必选,需要提前在Catalog下创建,或使用default数据库。

  6. 单击完成,创建DLF 2.0数据源。

步骤三:从SLS同步数据到DLF 2.0 Catalog中

  1. 创建同步任务。

    1. 数据集成页面,选择上述工作空间,单击进入数据集成

    2. 同步任务页面,单击新建同步任务

  2. 配置数据源。

    • 基本配置中,配置以下信息:

      • 数据来源与去向:数据来源为LogHub,去向为DLF 2.0。

      • 新任务名称:必选,会自动生成,也可手动修改。

      • 任务描述:可选,输入描述信息。

      • 同步类型:必选,仅支持单表实时。

      • 责任人:可选,可输入成员名称搜索。

    • 网络与资源配置中,配置资源组、来源数据源、去向数据源,单击测试连通性,连通无误后,单击下一步

      重要

      若未创建资源组,请在当前页面创建之后,并前往资源组列表绑定该工作空间。

  3. 配置节点信息。

    • 配置SLS来源信息:

      • SLS来源信息:必选,选择需要同步的Logstore。

      • 输出字段配置:可自动获取或手动指定。

    • 配置DLF 2.0去向信息和字段映射:

      • 目标表:选择自动建表

      • 表名:可自动获取或手动指定。

      • 编辑表结构:添加字段并配置Bucket-Key属性,字段名可与SLS来源的输出字段相同,完成后单击保存

      • 字段映射:可选择同名映射同行映射

  4. 单击完成配置,创建数据同步任务完成。

  5. 返回任务列表,单击任务操作列中的启动,开始数据同步。