文档

数据表-数据概况

为您介绍数据表详情中“数据概况”的主要功能。

功能说明

在数据表详情的数据概况标签页,基于对元数据及存储数据的统计,为您提供了数据表更加详细的指标信息,比如表存储大小、表文件总数、DDL最后更新时间、数据最后更新时间、访问次数、分区存储大小,分区文件数,分区最后更新时间等信息。如果您开通了数据湖管理功能,还可以查询到存储分布统计,大小文件分布统计信息。

适用场景

  • 随着业务逐渐增大,期望能尽快分析出每个表中存储数据大小,以便更有针对性的进行存储优化,此时结合表存储大小可以解决此类场景。

  • 数据越来越多,期望对访问频次不高的数据进行冷归档,以节省存储成本,此时结合访问次数可以快速区分访问频次较低的表。

  • 对于长时间未更新数据的表,期望尽快找到并对其进行清理或优化,此时可以结合数据最后更新时间快速定位到相关表。

指标说明

指标名称

指标说明

指标来源说明

表存储大小

当前表中存储的所有数据大小

如托管Location给DLF,来源于对OSS数据的统计;否则来源于E-MapReduce引擎stats数据;

表文件总数

当前表中存储的所有文件数量总和

如托管Location给DLF,来源于对OSS数据的统计;否则来源于E-MapReduce引擎stats数据;

分区数量

当前表中分区总数量

从元数据统计所得

DDL最后更新时间

表结构DDL最后更新时间

来源于对OSS数据的统计,需要托管Location给DLF。

DML最后更新时间

数据的最后更新时间

来源于对OSS数据的统计,需要托管Location给DLF。

当天访问次数

该表昨天的访问次数

来源自各计算引擎,目前仅适用于E-MapReduce引擎,适用条件:

  • 仅支持EMR主版本 >=3.45.1 或 >=5.11.1以上,其他版本需要单独做gatewayhook升级。参考《EMR Gateway升级EMRHOOK组件》文档

  • 目前仅支持Spark,Hive计算引擎

  • 每天0:00数据重置,会有10分钟左右数据延迟;

最近7天访问次数

该表最近7天的访问次数

来源自各计算引擎,目前仅适用于E-MapReduce引擎,适用条件:

  • 仅支持EMR主版本 >=3.45.1 或 >=5.11.1以上,其他版本需要单独做gatewayhook升级。参考《EMR Gateway升级EMRHOOK组件》文档

  • 目前仅支持Spark,Hive计算引擎

  • 每天0:00数据重置,会有10分钟左右数据延迟;

最近30天访问次数

该表最近30天的访问次数

来源自各计算引擎,目前仅适用于E-MapReduce引擎,适用条件:

  • 仅支持EMR主版本 >=3.45.1 或 >=5.11.1以上,其他版本需要单独做gatewayhook升级。参考《EMR Gateway升级EMRHOOK组件》文档

  • 目前仅支持Spark,Hive计算引擎

  • 每天0:00数据重置,会有10分钟左右数据延迟;

操作说明

  1. 打开数据湖构建控制台

  2. 点击菜单:元数据-元数据管理

  3. 选中数据表标签页

  4. 选择对应的数据库,并输入搜索的表名

  5. 点击某一个表,进入表详情页面

  6. 切换到数据概况标签页

image

  • 本页导读 (0)
文档反馈