管理开放数据

DataWorks OpenData 为用户提供集中、统一、易用的DataWorks平台的“元数据集合”。用户无需复杂配置,即可通过MaxCompute Package 视图授权共享的方式,快速获取标准化、可追溯的元数据信息。数据范围包含各类 表、任务节点及实例、工作空间、成员、项目、数据质量、数据资产等对象的详细元数据,助力数据治理与分析。

应用场景

DataWorks开放数据(DataWorks OpenData)是原有邀测版开放数据的全新升级,本次提供公开使用版本。与以往通过命令行操作开放数据的方式不同,新版提供了可视化界面,方便您更直观、高效地使用和管理元数据。

基于DataWorks平台提供的开放数据,您可进行以下应用:

  • 数据盘点:清晰统计工作空间、负责人管理的数据对象(如表、任务),了解数据结构、来源、更新频率及依赖关系,消除“数据黑盒”问题。

  • 全链路追溯:基于表和数据血缘等元数据,支持自定义查询具体表的上下游血缘路径,可完整追踪从源数据到下游应用的流转过程,快速定位问题或分析影响范围。

  • 自定义元数据分析:在原有OpenAPI的基础上,支持通过SQL方式直接访问和统计元数据,从而简化分析流程,缩短数据治理周期。

前提条件

已创建DataWorks工作空间并绑定MaxCompute计算资源

使用限制

  • 版本要求:仅支持 DataWorks 企业版及以上版本,其他版本暂不支持。

  • 权限限制:仅租户所有者、租户管理员、数据治理管理员用户角色,或被授予DataWorksFullAccess 权限的RAM用户,可安装和卸载DataWorks开放数据。

  • 授权限制:当前仅支持通过 MaxCompute 接收授权的元数据视图,暂不支持其他类型资源。

  • 数据更新时效性:元数据更新为 T+1 延迟,即当日可查询昨日统计结果。

管理开放数据

您可以查看并了解DataWorks开放数据的相关信息,同时完成开放数据的安装与使用。

查看开放数据

您可以通过以下内容了解开放数据中不同Package所包含的当前租户下的元数据信息及其适用场景,从而在使用时能够按需选择和灵活应用。

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 单击数据地图左侧导航栏中的image图标,进入数据目录页面。

  3. 在目录列表中单击DataWorks OpenData,即可进入开放数据(DataWorks OpenData)页面。

  4. 切换至Package列表页签后,可单击对应的Package详情,并在表列表中查看该Package包含的元数据表及其说明信息。

    • MetaData元数据与Examples元数据的区别:

      Package名称

      开放数据

      适用场景

      MetaData

      表信息(如表结构、字段描述、血缘关系)。

      调度节点及实例(如任务执行状态、依赖关系)。

      工作空间、成员、项目等管理元数据信息。

      数据质量明细、数据治理明细等元数据。

      适用于数据资产盘点、数据血缘分析、依赖关系管理。

      Examples

      元数据指标集合数据。

      说明

      Examples PackageDataWorks提供,基于元数据生成的示例性指标统计表集合。实际数据将根据具体业务情况动态调整,最终以系统界面显示为准。

      结合MetaData Package的原始数据,可快速构建常见分析场景(如资源利用率分析、任务健康度评估)。

      重要

      元数据表的结构及字段详细说明,请参见开放数据表结构详情

  5. 如需进一步了解元数据表的详细信息,可单击对应表的详情,在表详情页查看具体字段及其描述信息,方便您在使用过程中快速建立开放数据元数据表之间的关联关系。

安装开放数据

您可以参考开放数据中的详情信息,根据业务需求,将本租户范围内的所有相关数据视图通过Package安装方式,以Package形式授权至指定目标工作空间的MaxCompute计算资源中。

  1. 进入开放数据页面,在Package列表页签中选择目标Package(MetaDataExamples),单击操作列的详情

  2. 进入Package页面,安装所需使用的Package。

    • 初次安装:单击Package页面右上角的安装按钮,进行安装。

    • 已存在安装记录:单击Package页面安装记录页签下方的安装按钮进行安装。

    image

  3. 在弹出的安装DataWorks元数据对话框中,选择目标工作空间及授权使用的MaxCompute项目。

    说明
    • 授权使用的MaxCompute项目为目标工作空间绑定的计算资源。

    • 如目标工作空间绑定的MaxCompute计算资源显示已安装,无需重复安装。

    • 如需在标准模式的工作空间中操作开放数据中的元数据信息,建议分别为开发环境和生产环境绑定的MaxCompute计算引擎进行安装授权。

  4. 勾选确认安装说明后,单击确认安装。安装成功后,您可以在安装记录页签下查看新增的安装记录。

如需在目标工作空间的 MaxCompute 计算引擎中使用其他Package对应的元数据信息,您可以参考以上步骤进行安装和授权。

使用开放数据

将开放数据安装到目标工作空间的 MaxCompute 计算资源后,您可以在数据开发或数据分析模块中,基于该目标工作空间的MaxCompute计算资源,直接访问已授权的元数据视图信息。

  1. 在数据地图左侧导航栏中,单击image图标,进入数据目录页面。

  2. 在目录列表中单击MaxCompute,单击以u_meta为前缀、地域为后缀的Package。

    image

  3. 在详情页单击去使用 > 数据开发去使用 > 数据分析,即可前往对应模块查询使用已授权的元数据视图。

    • 数据开发使用

      1. Data Studio顶部菜单栏中,切换地域和工作空间到已安装开放数据的目标工作空间。

      2. 新建MaxCompute节点,在节点编辑页面使用开放数据进行相关任务开发。

      3. 您可以通过以下示例代码验证并测试安装是否成功。

        SELECT  dt
                ,COUNT(*) AS database_count
        FROM    u_meta_hangzhou.databases
        GROUP BY dt
        ORDER BY dt ASC
        LIMIT   32
        ;
        重要
        • 测试代码时,计算资源需要使用您已授权的MaxCompute计算资源。

        • u_meta_hangzhou需调整为您所使用的MaxCompute数据目录中以u_meta为前缀、地域为后缀的Package。

    • 数据分析使用

      1. 进入数据分析的SQL查询页面后,系统提供了常见的示例元数据分析脚本,您可以根据需求自行调整脚本内容。

      2. 单击SQL查询页面右上角的image图标,选择您已授权的工作空间,并绑定MaxCompute计算资源时系统生成的同名数据源。即可在数据分析中运行已授权的元数据。

        说明

        在执行示例脚本前,您可将脚本中的REPLACE_WITH_WORKSPACE_ID参数替换为您所需查询的工作空间ID,否则会执行报错,工作空间ID获取请参见配置工作空间

卸载开放数据

如果后续不再使用开放数据,或需要解除对某个工作空间中MaxCompute项目的授权,您可以卸载对应的开放数据。

  1. 在数据地图左侧导航栏中,单击image图标进入数据目录页面。

  2. 在目录列表中选择MaxCompute,然后单击以u_meta为前缀、地域为后缀的Package。

  3. 在详情页的可访问项目页签找到目标项目,单击对应操作栏中的卸载,在弹出的确认卸载DataWorks元数据窗口中,勾选确认卸载说明后,单击确认卸载

    重要

    请谨慎执行卸载操作,确保在数据开发或数据分析任务中已停止使用相关数据,否则卸载开放数据后会导致任务无法正常执行。

常见问题

  • Q:元数据更新延迟如何影响使用?

    A:元数据按T+1生成,若需实时数据,建议通过DataWorks OpenAPI直接获取。

  • Q:DataWorks开放数据安装后是否可卸载?

    A:可卸载,卸载后会取消授权,需谨慎操作以避免影响依赖该视图的分析任务。

  • Q:如何确保元数据安全性?

    A:通过MaxCompute数据访问权限控制管理控制访问范围,避免将敏感元数据共享给无关团队。