本文主要介绍从阿里云日志服务SLS导入数据至DLF 2.0 Catalog的步骤,帮助您全面掌握在DataWorks中配置与使用DLF 2.0 Catalog的关键流程,提升数据处理效率与能力。
前提条件
步骤一:添加DLF 2.0数据目录
在数据开发页面,选择一个参加数据开发(Data Studio)(新版)公测的工作空间,单击进入数据开发。
在左侧菜单栏,单击图标进入数据目录。
重要如您未找到该图标,请重新选择或创建符合条件的工作空间。详见前提条件说明。
在DLF Catalog模块中,单击添加Catalog。
在DLF Catalog列表中,勾选相应的Catalog,单击添加。添加后可在DLF Catalog模块中查看DLF的Catalog、数据库和数据表。
单击已添加Catalog右侧的图标,可在该Catalog下新建数据库。
单击数据库右侧的图标,可在该数据库下新建表。
步骤二:创建DLF 2.0数据源
在数据集成页面,选择上述工作空间,单击进入数据集成。
在左侧菜单栏,单击数据源,进入数据源列表页。
单击新增数据源,在对话框中搜索DLF 2.0数据源,点击添加。
在基础信息中,配置以下信息:
数据源名称:必选,工作空间内唯一。
数据源描述:可选,输入描述信息。
访问身份:必选,支持使用阿里云账号(主账号)、阿里云RAM用户(即子账号)、阿里云RAM角色访问。
DLF数据目录:必选,选择上一步添加的Catalog。
数据库名称:必选,需要提前在Catalog下创建,或使用default数据库。
单击完成,创建DLF 2.0数据源。
步骤三:从SLS同步数据到DLF 2.0 Catalog中
创建同步任务。
在数据集成页面,选择上述工作空间,单击进入数据集成。
在同步任务页面,单击新建同步任务。
配置数据源。
在基本配置中,配置以下信息:
数据来源与去向:数据来源为LogHub,去向为DLF 2.0。
新任务名称:必选,会自动生成,也可手动修改。
任务描述:可选,输入描述信息。
同步类型:必选,仅支持单表实时。
责任人:可选,可输入成员名称搜索。
在网络与资源配置中,配置资源组、来源数据源、去向数据源,单击测试连通性,连通无误后,单击下一步。
重要若未创建资源组,请在当前页面创建之后,并前往资源组列表绑定该工作空间。
配置节点信息。
配置SLS来源信息:
SLS来源信息:必选,选择需要同步的Logstore。
输出字段配置:可自动获取或手动指定。
配置DLF 2.0去向信息和字段映射:
目标表:选择自动建表。
表名:可自动获取或手动指定。
编辑表结构:添加字段并配置Bucket-Key属性,字段名可与SLS来源的输出字段相同,完成后单击保存。
字段映射:可选择同名映射或同行映射。
单击完成配置,创建数据同步任务完成。
返回任务列表,单击任务操作列中的启动,开始数据同步。