管理开放数据

DataWorks开放数据(DataWorks OpenData)为您提供集中、统一且易用的元数据集合,涵盖当前租户下的表、任务节点、实例、工作空间、成员及项目等对象的详细信息。通过将开放数据安装到绑定MaxCompute计算资源的工作空间中,您可以在数据开发与分析中利用MaxCompute Package视图授权共享元数据(通过将元数据Package授权给MaxCompute Package),快速获取标准化、可追溯的元数据,从而实现高效的数据治理与分析。

应用场景

DataWorks开放数据(DataWorks OpenData)是原有邀测版开放数据的全新升级,本次提供公开使用版本。与以往通过命令行操作开放数据的方式不同,新版提供了可视化界面,方便您更直观、高效地使用和管理元数据。

基于DataWorks平台提供的开放数据,您可进行以下应用:

  • 数据盘点:清晰统计工作空间、负责人管理的数据对象(如表、任务),了解数据结构、来源、更新频率及依赖关系,消除“数据黑盒”问题。

  • 全链路追溯:基于表和数据血缘等元数据,支持自定义查询具体表的上下游血缘路径,可完整追踪从源数据到下游应用的流转过程,快速定位问题或分析影响范围。

  • 自定义元数据分析:在原有OpenAPI的基础上,支持通过SQL方式直接访问和统计元数据,从而简化分析流程,缩短数据治理周期。

前提条件

已创建DataWorks工作空间并绑定MaxCompute计算资源

使用限制

  • DataWorks企业版可安装使用DataWorks开放数据。

  • 仅租户所有者、租户管理员、数据治理管理员用户角色,或被授予DataWorksFullAccess 权限的RAM用户,可安装和卸载DataWorks开放数据。

  • 仅支持通过MaxCompute接收授权的元数据视图,暂不支持其他类型资源。

    元数据视图是对元数据(Metadata)进行可视化展示和管理方式。
  • 元数据更新为T+1延迟,即当日可查询昨日统计结果。

进入开放数据页面

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 单击数据地图左侧导航栏中的image图标,进入数据目录页面。

  3. 在目录列表中单击DataWorks OpenData,即可进入开放数据(DataWorks OpenData)页面。

管理开放数据

您可以查看并了解DataWorks开放数据的相关信息,同时完成开放数据的安装与使用。

查看开放数据

您可以通过以下内容了解开放数据中不同Package所包含的当前租户下的元数据信息及其适用场景,从而在使用时能够按需选择和灵活应用。

  1. 在开放数据页面,您可在详情说明页签了解开放数据的元数据内容、应用场景和快速使用等信息。

  2. 切换至Package列表页签后,可单击对应的Package详情,并在表列表中查看该Package包含的元数据表及其说明信息。

    • MetaData元数据与Examples元数据的区别:

      Package名称

      开放数据

      适用场景

      MetaData

      表信息(如表结构、字段描述、血缘关系)。

      调度节点及实例(如任务执行状态、依赖关系)。

      工作空间、成员、项目等管理元数据信息。

      适用于数据资产盘点、数据血缘分析、依赖关系管理。

      Examples

      元数据指标集合数据。

      说明

      Examples PackageDataWorks提供,基于meta数据生成的示例性指标统计表集合。实际数据将根据具体业务情况动态调整,最终以系统界面显示为准。

      结合MetaData Package的原始数据,可快速构建常见分析场景(如资源利用率分析、任务健康度评估)。

      如需了解元数据表的结构及字段详细说明,请参见开放数据表结构详情

    • MetaData元数据说明:

      元数据表

      元数据表说明

      catalogs

      数据目录

      databases

      数据库

      schemas

      数据模式

      tables

      columns

      字段

      partitions

      分区

      lineages

      TableColumn级别血缘

      tasks

      任务/工作流定义

      task_instances

      任务/工作流运行的实例

      users

      用户

      workspaces

      工作空间

      workspace_members

      工作空间成员

      resource_groups

      资源组

    • Examples元数据说明:

      元数据表

      元数据表说明

      table_metrics_detail

      表指标明细

      table_metrics_summary

      表指标汇总

      task_metrics_detail

      任务指标明细

      task_metrics_summary

      任务指标汇总

  3. 如需进一步了解元数据表的详细信息,可单击对应表的详情,在表详情页查看具体字段及其描述信息,方便您在使用过程中快速建立开放数据元数据表之间的关联关系。

安装开放数据

您可以参考开放数据中的详情信息,根据业务需求,将本租户范围内的所有相关数据视图通过Package安装方式,以Package形式授权至指定目标工作空间的MaxCompute计算资源中。

  1. 进入开放数据页面,在Package列表页签中选择目标Package(MetaDataExamples),单击操作列的详情

  2. 进入Package页面,安装所需使用的Package。

    • 初次安装:单击Package页面右上角的安装按钮,进行安装。

    • 已存在安装记录:单击Package页面安装记录页签下方的安装按钮进行安装。

    image

  3. 在弹出的安装DataWorks元数据对话框中,选择目标工作空间及授权使用的MaxCompute项目。

    说明
    • 授权使用的MaxCompute项目为目标工作空间绑定的计算资源。

    • 如目标工作空间绑定的MaxCompute计算资源显示已安装,无需重复安装。

    • 如需在标准模式的工作空间中操作开放数据中的元数据信息,建议分别为开发环境和生产环境绑定的MaxCompute计算引擎进行安装授权。

  4. 勾选确认安装说明后,单击确认安装。安装成功后,您可以在安装记录页签下查看新增的安装记录。

如需在目标工作空间的 MaxCompute 计算引擎中使用其他Package对应的元数据信息,您可以参考以上步骤进行安装和授权。

使用开放数据

将开放数据安装到目标工作空间的 MaxCompute 计算资源后,您可以在数据开发或数据分析模块中,基于该目标工作空间的MaxCompute计算资源,直接访问已授权的元数据视图信息。

  1. 在数据地图左侧导航栏中,单击image图标,进入数据目录页面。

  2. 在目录列表中单击MaxCompute,单击以u_meta为前缀、地域为后缀的Package。

    image

  3. 在详情页单击去使用 > 数据开发去使用 > 数据分析,即可前往对应模块查询使用已授权的元数据视图。

    • 数据开发使用

      1. Data Studio顶部菜单栏中,切换地域和工作空间到已安装开放数据的目标工作空间。

      2. 新建MaxCompute节点,在节点编辑页面使用开放数据进行相关任务开发。

      3. 您可以通过以下示例代码验证并测试安装是否成功。

        SELECT  dt
                ,COUNT(*) AS database_count
        FROM    u_meta_hangzhou.databases
        GROUP BY dt
        ORDER BY dt ASC
        LIMIT   32
        ;
        重要
        • 测试代码时,计算资源需要使用您已授权的MaxCompute计算资源。

        • u_meta_hangzhou需调整为您所使用的MaxCompute数据目录中以u_meta为前缀、地域为后缀的Package。

    • 数据分析使用

      1. 进入数据分析的SQL查询页面后,系统提供了常见的示例元数据分析脚本,您可以根据需求自行调整脚本内容。

      2. 单击SQL查询页面右上角的image图标,选择您已授权的工作空间,并绑定MaxCompute计算资源时系统生成的同名数据源。即可在数据分析中运行已授权的元数据。

        说明

        在执行示例脚本前,您可将脚本中的REPLACE_WITH_WORKSPACE_ID参数替换为您所需查询的工作空间ID,否则会执行报错,工作空间ID获取请参见配置工作空间

卸载开放数据

如果后续不再使用开放数据,或需要解除对某个工作空间中MaxCompute项目的授权,您可以卸载对应的开放数据。

  1. 在数据地图左侧导航栏中,单击image图标进入数据目录页面。

  2. 在目录列表中选择MaxCompute,然后单击以u_meta为前缀、地域为后缀的Package。

  3. 在详情页的可访问项目页签找到目标项目,单击对应操作栏中的卸载,在弹出的确认卸载DataWorks元数据窗口中,勾选确认卸载说明后,单击确认卸载

    重要

    请谨慎执行卸载操作,确保在数据开发或数据分析任务中已停止使用相关数据,否则卸载开放数据后会导致任务无法正常执行。

常见问题

Q:元数据更新延迟如何影响使用?

A:元数据按T+1生成,若需实时数据,建议通过DataWorks OpenAPI直接获取。

Q:DataWorks开放数据安装后是否可卸载?

A:可卸载,卸载后会取消授权,需谨慎操作以避免影响依赖该视图的分析任务。

Q:如何确保元数据安全性?

A:通过MaxCompute数据访问权限控制管理控制访问范围,避免将敏感元数据共享给无关团队。