元数据检索

DataWorks 数据地图是一个集中的数据资产管理与发现平台。它帮助您全面了解企业内的数据状况,并像使用搜索引擎一样,快速、准确地找到您需要的数据。核心功能包括:

  • 数据总览:提供数据资产的统计视图,帮助您快速洞察数据现状。

  • 全局关键字搜索:通过单一入口,快速定位您关心的表、字段或业务术语。

  • 多维度筛选与浏览:通过组合条件,进行精细化、探索性的数据查找。

使用限制

  • 已创建PAI工作空间的租户支持搜索查看对应类型(数据集、AI模型、算法任务、模型服务)的AI资产。

  • 代码搜索仅支持DataWorks标准版及以上用户。

进入数据地图

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

数据总览:从宏观视角洞察

数据总览为您提供数据源的整体使用情况。

  1. 在数据地图首页,单击元数据采集后的数据总览

    image

  2. 在数据总览页,查看当前地域所有的引擎资源。

    1. MaxCompute关键指标说明

      名称

      描述

      总项目数

      当前地域下,所有MaxCompute项目总数。准实时数据。

      总表数

      当前地域下,所有MaxCompute表总个数。此数据为离线统计,有T+1延迟

      存储量

      当前地域下,所有表的逻辑存储大小总和,包含调度任务的临时文件、删除表后尚未释放的存储空间。此数据为离线统计,有T+1延迟

      API

      当前地域下,已发布至API网关的MaxCompute类型的API总数。

      存储趋势图

      当前地域下,MaxCompute项目的逻辑存储总和趋势图,此数据包含调度任务的临时文件、删除表后尚未释放的存储空间。此数据为离线统计,有T+1延迟

      项目占用存储Top

      当前地域下,MaxCompute项目的逻辑存储大小的排行。此数据为离线统计,有T+1延迟。可单击查看项目元数据。

      重要

      项目存储量除表存储量外,还会计算包括资源存储量、回收站存储量及其它系统文件存储量等在内,会大于表存储量。

      表占用存储Top

      按照MaxCompute表大小展示的排行榜。此数据为离线统计,有T+1延迟。可单击查看表元数据。

      重要

      表的存储计算的是表的逻辑存储而非物理存储。

      热门浏览表

      最近30天内的页面热门浏览表,根据30天内在数据地图点击浏览表详情页面的PV进行统计,准实时数据。

    2. 其他引擎指标说明:展示数据库总数、总表数、集群总数等信息。

如何查找数据:从搜索到发现

数据地图提供两种互补的搜索方式来满足您不同的找数需求。

全局关键字搜索

当您对要找的数据有明确线索时,全局搜索是最高效的方式。同时,首页提供快捷入口展示最近浏览关注专辑管理专辑

  1. 进入搜索栏:在数据地图的首页顶部,找到醒目的搜索框。

  2. 输入关键字:选择元数据类型,输入表名、字段名、中文注释等关键词。例如,输入“用户”、“订单”或“user_info”。

    image

  3. 执行搜索:按下回车键,系统将返回一个包含所有相关数据资产的列表,单击查看详情。

多维度筛选与浏览

当需要更精确地缩小查找范围,或想按业务分类进行探索时,可进入搜索页进行高级搜索。同时,导航栏上方仍然提供首页的全局关键字搜索。image

  1. 进入搜索页:从左侧导航栏点击搜索图标image,进入高级搜索页面。

  2. 组合筛选条件:在页面左侧,通过勾选不同的筛选条件来层层过滤:

    • 类型:选择元数据类型,支持代码索引API数据集工作空间等。

    • 数据源:当选择表时,限定只在某个引擎中查找,如 MaxComputeEMR HiveHologres 等。

      重要

      若数据源超过一定数量时,点击右上角的更多按钮可展示隐藏数据源。

    • 筛选条件

      • 支持项目、负责人、环境、集群、数据目录、数据库等筛选。

        筛选条件依据元数据的不同类型而有所差异。
      • 标签:按数据治理过程中打上的标签进行筛选。可在我的数据 > 我拥有的数据或者元数据详情中设置标签

      • 类目:支持按照业务类目筛选。类目设置请在配置管理 > 类目导航配置中设置,详情请参见类目导航配置

使用示例:

我想找MaxCompute中,由“张三”负责的所有生产环境的表。操作: 在“数据源”中选择 MaxCompute -> 在“负责人”中输入 张三 -> 在“环境”中选择 生产

常见问题

  • Q:搜不到我想要的表?

    A:在 DataWorks 数据地图中找不到目标表,通常由以下原因导致,您可以逐一排查并参考对应的解决方案。

    • 搜索关键词不匹配:支持按表名、描述、字段名等检索,建议尝试更精确或部分关键词。

    • 元数据未同步:DataWorks 绑定 MaxCompute 或 DLF 后会自动采集元数据,但新建表或结构变更后可能存在延迟。
      解决方法:进入我的数据 > 我的工具 > 刷新表元数据,操作成功后,重新搜索即可。

    • 表被隐藏:表可能被设置为“隐藏”状态,导致无法通过搜索发现。表状态设为“隐藏”时,所有人不可见;设为“仅项目”时,仅本工作空间成员可见。

    • 权限不足:默认搜索仅覆盖当前工作空间及已授权项目。若目标表属于其他账号或未授权的工作空间,即使存在也无法检索到。另外,若无表的查询权限,默认无法在数据地图中看到该表(尤其在标准模式工作空间)。

      解决方法:联系表 Owner 或管理员申请权限,或确认是否已加入对应项目。