本文将介绍在DMS中接入DLA数据湖,利用DLA一键建仓功能将RDS MySQL数据库接入DLA数据库,并在DMS中对DLA数据库进行任务流开发,简要介绍在DMS接入DLA的开发与应用。

背景信息

数据湖分析(Data Lake Analytics,简称DLA)是无服务器(Serverless)化的云上交互式查询分析服务。DLA完全采用SQL与服务端进行交互,兼容标准的SQL,提供丰富的内置函数支持。DLA支持多路数据源接入分析,提供了多样化、异构的数据源分析能力。您不仅能够对阿里云OSS中的数据、Tablestore中的数据进行分析,还能将这两者之间的数据进行关联性分析,可以帮助您解决将不同种类的数据进行联合分析的问题。同时DLA全面融合MPP(Massively Parallel Processing,即大规模并行处理)和DAG(Directed AcyclicGraph)技术,超强的横向分析扩展能力、向量化执行优化、算子流水线优化,提供良好的资源隔离和优先级调度。使用DMS任务流在DLA上做周期性数据分析可获得如下好处:
  • 任务流只需一次定义,即可周期性地自动被调度执行,大大减少人工操作的成本。
  • 周期执行任务并提前产生出分析结果,业务应用可直接查询结果获得快速响应。
  • 任务流执行时产生的中间结果可被复用,用于其他的数据分析任务,从而最大化DLA的资源利用。

添加RDS实例

  1. 登录DMS控制台
  2. 单击页面左上角的新增实例 / 批量录入,在弹框中单击新增实例按钮。
  3. 单击云数据库标签页。
  4. 云数据库区域中选择MySQL
  5. 在弹出的新增实例对话框中按照下表录入实例信息。
    标签页名称 名称 说明
    基本信息 数据库来源 选择数据库实例的来源。此处选择云数据库
    数据库类型 选择数据库实例的类型。
    实例地区 选择数据库实例所在的地区。
    录入方式 选择数据库实例的录入方式。支持实例ID和连接串地址两种录入方式。
    实例ID 选择数据库实例的实例ID。该选项仅在录入方式选择实例ID时可见。
    连接串地址 输入实例的连接地址。该选项仅在录入方式选择连接串地址时可见。
    数据库账号 输入数据库的登录账号。
    数据库密码 输入数据库账号对应的密码。
    管控模式 选择数据库的管控模式,详情请参见管控模式
    高级信息 环境类型 选择数据库环境的类型。
    实例名称 自定义实例的名称。
    开启跨库查询 选择是否开启跨库查询功能,详情请参见跨库查询
    不锁表结构变更 选择是否开启不锁表结构变更功能,详情请参见不锁表结构变更
    实例DBA 选择一个DBA角色进行后期权限申请等流程。
    查询超时时间(s) 设定安全策略,当达到设定的时间后,SQL窗口执行的查询语句会中断,以保护数据库安全。
    导出超时时间(s) 设定安全策略,当达到设定的时间后,SQL窗口执行的导出语句会中断,以保护数据库安全。
  6. 完成以上信息填写,在基本信息标签页中,单击左下角的测试连接,等待测试通过。
    说明 如果测试连接失败,请按照报错提示检查您录入的实例信息。
  7. 连接成功,单击提交

添加DLA实例

  1. 登录DMS控制台
  2. 单击页面左上角的新增实例 / 批量录入,在弹框中单击新增实例按钮。
  3. 单击云数据库标签页。
  4. 云数据库区域中选择DLA-数据湖分析
  5. 后续步骤与添加RDS MySQL实例一致,详情可参见添加RDS实例

任务开发

  1. 登录DMS控制台
  2. 在顶部菜单栏中,单击数据工厂 > 任务编排
  3. 任务编排页面的自由编排任务区域,单击新建任务流
  4. 新建任务流对话框,自定义填写任务流名称描述后,单击确认
  5. 将左侧任务类型中DLA一键建仓拖拽到页面中空白区域。
  6. 配置任务节点。
    1. 单击页面中新建的任务节点,在右侧属性面板中单击内容设置页签,进入到任务节点的SQL编辑页面。
    2. 在内容设置页中配置以下参数,并单击保存
      配置 说明
      数据来源 在已接入DMS的实例中选择需要入DLA数据湖的数据库源,本案例中为RDS MySQL数据库。
      Schema名称 填入需要在DLA中创建的Schema名称。
      OSS数据位置 填入目标OSS数据位置。
      高级选项 通过一键建仓向导创建Schema时,您可以在高级选项中自定义一些设置,例如过滤字段或者表等,详细请参见高级选项功能
      说明 更多关于DLA一键建仓的介绍请参见 一键建仓
    3. 单击变量设置页签,设置变量并单击保存
      说明 更多DMS支持的时间格式请参见 任务编排介绍
  7. 将左侧任务类型中DLA-SQL拖拽到页面中空白区域。
  8. 配置任务节点。
    1. 单击页面中的DLA-SQL任务节点,在右侧属性面板中单击节点名称,在任务名文本框输入DLA-SQL-day,单击保存
    2. 单击右侧属性面板中的内容设置页签,在该页面中编辑报表生成语句。
    3. 单击变量设置,参考步骤6设置变量并单击保存
      说明 完成SQL、变量配置之后,单击SQL预览确认是否满足预期。确认无误后,单击属性面板右下角 保存
  9. 返回到DAG图中,拖动鼠标连接2个任务节点。
  10. 完成DAG图的流程走向编辑后,在右侧属性面板中开启调度,完成配置后单击保存即可。
    说明 任务流调度周期支持每月、每周、每天多维度配置,您可以按需求选择调度周期,本案例为每个工作日的早上5点执行任务。

后续步骤

  • DLA一键建仓生成数据库后,若子账号没有查询权限,需要先申请权限,详情请参见权限管理
  • 您可以通过DMS提供的数据保护伞功能进行数据安全管理,详情请参加数据保护伞