在MaxCompute中使用DLF Catalog

本文主要介绍如何在DataWorks环境中整合MaxCompute的计算能力与DLF 2.0 Catalog服务,帮助您实现高效元数据管理及数据操作。

前提条件

已创建DLF 2.0数据目录。如未创建,详情请参见创建数据目录

说明

如果是RAM用户,在进行数据操作之前,需要先授予相应的资源权限。详情请参见授权管理

绑定MaxCompute计算资源

  1. 登录DataWorks工作空间设置控制台

  2. 计算资源页面,单击绑定计算资源

  3. 在弹出的对话框中,选择MaxCompute

  4. MaxCompute项目下拉列表中,单击新建,创建External Project。

  5. 新增项目对话框中,配置以下信息,单击确认

    image

    • 项目类型:必选,选择外部项目

    • 项目名称:必填,需要全网唯一。

    • MaxCompute外部数据源类型:选择OpenLake(DLF2)

    • MaxCompute外部数据源:选择新建外部数据源

    • MaxCompute外部数据源名称:选择新建外部数据源

    • 授权信息:使用ExecuteWithUserAuth认证方式。

    • DLF EndPoint:会自动生成。

    • DLF 数据目录:选择已创建的DLF 2.0数据目录。

    • 计算资源付费类型:可选包年包月按量付费

    • 默认Quota:必选。

  6. 配置以下信息,单击确认

    更多参数信息,请参见创建MaxCompute数据源

    • MaxCompute项目:必选,选择步骤5中新建的项目名称。

    • 默认访问身份:必选,定义在当前工作空间下,用什么身份访问该数据源。

    • Endpoint:必选,可选自动适配或自定义配置。

    • 计算资源实例名:必选,会自动生成,也可手动修改。

    • 连接配置:测试资源组连通性。

查看External Project

  1. 登录DataWorks数据开发控制台

  2. 数据开发页面,选择一个工作空间,单击进入数据开发

  3. 在左侧菜单栏,单击image图标。

  4. MaxCompute模块中,可以看到当前工作空间下的External Project列表。

插入数据

  1. 在左侧菜单栏单击image图标,进入数据开发页面。

  2. 单击image图标,在弹出的对话框中,选择MaxCompute SQL,输入MaxCompute SQL名称,并按Enter键确认。

  3. 运行以下SQL,插入数据。

    说明
    • 目前INSERT仅支持Paimon Append表。

    • 目前MaxCompute不支持创建Paimon表,表employees需要在DLF预先创建。创建表具体操作,请参见新建数据表

    • SQL中的project_dlf_test为外部项目名称。

    SET odps.namespace.schema = true;
    INSERT INTO TABLE project_dlf_test.default.employees (employee_id, name, department) 
    VALUES 
      (1, '张三', '技术部'),
      (2, '李四', '市场部'),
      (3, '王五', '人力资源部');

查询数据

运行以下SQL,查询数据。

SET odps.namespace.schema = true;
SELECT * FROM project_dlf_test.default.employees;