MaxCompute表数据

创建MaxCompute数据源并绑定至DataWoks数据开发后,您可以直接在数据地图进行MaxCompute表的相关操作。包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表等操作。本文为您介绍如何在数据地图查看和管理MaxCompute表。

前提条件

创建MaxCompute数据源并绑定至DataWoks数据开发,绑定后DataWorks会面向引擎自动采集元数据,系统将一次性全量采集存量的元数据,同时每天采集增量的元数据,并汇集至数据地图。由系统自动运维元数据采集器,您无需额外管理元数据采集器。

说明

若在数据地图中,没有找到目标表,您可进入我的数据 > 我的工具 > 刷新表元数据,手动同步相关表。

进入数据地图

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

查找表

在左侧菜单栏,单击image。进入查找表的页面。支持您在搜索框中输入表名、表描述等查找该数据源中包含关键字的所有表,您还可以单击左侧字段类目,在输入框中输入字段名称、字段描述等关键字搜索该数据源中包含关键字的所有字段。同时还可以通过表所在类目、项目或数据库进行表过滤。类目配置请参见类目导航管理:配置管理

对于搜索结果,您可以执行如下快捷操作:

  • 申请权限:您可以在安全中心申请表权限,并在数据地图查看申请记录。详情请参见申请和管理表权限

  • 加入专辑:您可以将当前表添加到目标数据专辑,在目标数据专辑详情页面中进行表管理。详情请参见业务视角管理:数据专辑

  • 收藏表:您可以收藏或者取消收藏不需要的表。

  • 查看血缘:单击后,您可以查看该表基于调度作业、数据同步等实际数据流转情况解析得出的表和表、字段和字段之间的血缘关系,暂不包含临时查询等手动操作产生的血缘关系。详情请参见查看血缘信息

  • 查看DDL:单击后,在生成DDL语句对话框中,查看或复制当前表的建表语句。

查看表详情

在查找到的表结果列表中,单击目标表名称,即可进入表详情页面查看表详细信息:

image.png

功能

说明

相关文档

快捷操作

您可以在页面上方对表进行申请权限、将表加入数据专辑/查看专辑收藏表、在数据服务页面生成API、在SQL查询页面通过编写SQL语句进行数据查询与分析等操作。

表基础信息

您可以在表基础信息区域查看表的浏览次数读取次数收藏次数生命周期

审批负责人Table Owner表类型等信息。

查看表基本信息

表模型信息

用于查看当前模型表所属的数仓分层、业务分类、存储策略等信息。

单击查看模型,即可进入智能数据建模 > 维度建模页面,查看创建的模型表。您可以在表编辑页面,修改表信息、发布表、查看表的操作日志或进行表模型的数据开发。

说明

仅DataWorks智能数据建模生成的表会显示模型信息。

维度建模概述

表权限信息

用于查看您当前拥有的表权限,您可以单击点击查看,进入表权限申请页面申请权限。

申请和管理表权限

表技术信息

用于查看DDL最后变更时间最后数据变更时间最后查看时间

说明

最后查看时间:

  • 统计的为表的最后访问时间,其访问包括手动执行命令访问该表数据和任务调度场景下访问该表数据。

  • 此数据仅供参考,不能百分之百精确反映该数据的真实访问时间。

  • 此数据为离线统计,有T+1的延迟。

-

明细信息

用于查看表的字段信息分区信息变更记录

查看明细信息

产出信息

如果表的数据会随着对应的任务周期性发生变化,您可以单击产出信息,查看该表对应的生产任务的运行信息。此数据为离线统计,有T+1的延迟。

-

血缘信息

用于查看引擎节点内部或引擎节点间的血缘关系,您也可以查看当引擎作为数据源时,与产出的数据接口API之间的血缘关系。此外,MaxCompute还支持基于离线同步的完整链路血缘查看。此数据为离线统计,有T+1的延迟。

说明

如需从API视角查看上游(数据源)和下游(APP)的完整端到端血缘链路,请参考查看API详情

查看血缘信息

使用说明

您可以进行编辑查看历史版本查看markdown语法等操作,根据数据的业务说明了解相关的信息。

-

数据质量

为您展示当前表配置的数据质量监控规则详情及DQC告警列表,您可以单击右侧的配置规则跳转至数据质量页面为表配置质量监控规则。

配置规则:按表(单表)

使用记录

通过频繁关联访问统计维度为您展示表的使用记录。

  • 频繁关联:为您展示有多少人在使用当前的表数据。

  • 访问统计:通过读取趋势图、字段热度明细、读取TOP人员等图标方式为您展示表的使用记录。

查看表的使用记录

数据预览

可以预览当前表中的随机20条数据。

重要
  • 您需要拥有权限,才可以预览生产环境的表。如果没有权限,请参见申请表权限进行申请。

  • 如果表所在工作空间在项目管理配置开启了表预览权限,即使没有在安全中心申请表查询权限,同样可以在此处预览数据。

  • 如果您已配置数据脱敏规则并设置数据脱敏规则为生效状态,那么数据脱敏规则也会在数据预览页面生效。关于数据脱敏规则配置方法,详情请参见创建数据脱敏规则

  • 暂不支持MaxCompute外部表和包括JSON字段类型的MaxCompute表的数据预览。

-

进行数据探查

数据探查通过分析数据的结构和取值,为您展示数据的统计信息和分布情况等探查结果。

说明
  • 数据探查将会产生数据质量实例费,您可以在数据质量任务查询面板中,查看该表关于此次探查的日志。

  • 数据探查目前仅支持在上海地域使用。

查看数据统计信息和分布情况

查看表基本信息

您可以在表详情页左侧的表基础信息区域查看表的浏览次数读取次数收藏次数等信息。

  • image.png图标表示当前表为DataWorks智能数据建模生成的模型表。如果您需要使用智能建模功能,请参考概述

  • 浏览次数:统计30天内在数据地图浏览此表详情页的次数,此数据为离线统计,有T+1的延迟。

  • 读取次数:统计近30天内生产环境发起的读取MaxCompute表的任务计数,读取表的任务类型包括但不限于SQL、Tunnel Download、数据集成等。目前仅统计与调度相关联任务的表读取次数,非DataWorks任务的表读取次数将不会被统计。此数据为离线统计,有T+1的延迟。

  • 收藏次数:表被收藏的人次,为实时统计的数据。

  • 存储量:统计的为表的逻辑存储大小,此数据为离线统计,有T+1的延迟。

  • 产出任务:写入当前表的DataWorks周期调度任务ID。若表被周期更新,但没有展示任务ID,可能是非DataWorks周期调度任务写入,详可咨询表负责人。此数据为离线统计,有T+1的延迟。

    说明

    若无权限查看产出任务的任务代码,则请联系对应任务所在工作空间的管理员进行相关授权,详情请参见开启安全隔离代码和日志

查看明细信息

单击明细信息,查看表的字段信息分区信息变更记录

  • 字段信息

    您可以查看表的字段信息,如果该表为分区表,您还可以查看分区字段信息

    操作

    描述

    编辑

    单击后,您可以编辑字段的描述业务描述安全等级主键,并保存取消编辑的内容。您也可以选中多个字段,批量设置安全等级。

    说明
    • 空间管理员及表Owner支持编辑表字段。如果目标用户需要编辑表字段,则可授权空间管理员权限,详情请参见全局级模块权限控制

    • 仅单独设置字段安全等级的表,会显示安全等级

    • 在MaxCompute引擎开启字段安全等级功能后,才可以在此处设置表字段的安全等级。开启安全等级功能,详情请参见Label权限控制

    批量编辑安全等级

    用于批量设置表字段的安全等级,提升数据的安全性。

    上传

    单击后,拖拽本地需要上传的数据至批量上传字段信息对话框中。

    说明
    • 空间管理员及表Owner支持上传数据至目标表。如果目标用户需要上传数据,则可授权空间管理员权限,详情请参见全局级模块权限控制

    • 仅支持上传.xlsx(Excel 2007版本)格式的文件,您也可以下载模板文件

    • 智能建模生成的模型表不支持此功能。

    下载

    单击后,直接下载当前表的字段信息。

    生成select

    单击后,在生成select语句对话框中,查看或复制当前表的select语句。

    生成DDL

    单击后,在生成DDL语句对话框中,查看或复制当前表的建表语句。

    说明
    • 字段热度:统计数据为前一天该字段在SQL中参与join的次数,次数按比例转换为星级,热度最高为5星,最小为0星。

    • 关联指标:展示字段关联的模型指标。如需新建或更新关联关系,请进入维度建模,在目标表的编辑页面中,通过字段管理来维护字段与指标的关联关系,发布建模表后,关联关系即可生效。

  • 分区信息

    查看当前表的分区名记录数逻辑存储大小等分区信息。

    说明
    • 分区记录数和大小仅供参考。数据更新可能有延迟,实际以引擎侧为准。

    • 如果是MaxCompute Transactional表,暂不支持查看记录数,固定显示为-1,请以SELECT COUNT(*) FROM <表名> WHERE <分区>;命令查询结果为准。

  • 变更记录

    查看当前表的变更描述变更类型粒度等变更记录。

    您可以在变更记录页签的左上方,从变更类型列表中,选择需要查看其变更记录的变更类型。

查看血缘信息

血缘信息是基于解析调度作业、数据同步等真实数据的流转情况,得出的表和表、字段和字段之间的血缘关系。在血缘信息页面,您可查看表或表字段的上下游,查看表原始数据来源及表数据最终流向的数据库相关信息。同时,也可根据需求进行不同层级血缘的影响分析。

说明
  • 仅DataWorks标准版及以上版本才可查看血缘信息。

  • 表和字段血缘是通过解析调度作业等真实数据的流转情况,得出不同表及不同字段间的血缘关系,该操作为离线统计,存在T+1的延迟。

  • 血缘信息暂不支持通过临时查询等手动操作产生的血缘关系。

  • 若数据地图无法正常展示通过PyODPS节点执行SQL产生的数据血缘关系,则您可在PyODPS任务代码处通过手动设置DataWorks调度运行的相关参数解决。详情请参见开发PyODPS 3任务开发PyODPS 2任务

  • 查看表血缘

    表血缘页签,您可查看当前表的血缘关系详情。主要包括:

    • 查看当前表血缘关系中各节点的上下游节点个数。鼠标悬停至表或任务类型,即可查看该表或任务类型的基本信息、日志、代码等。

    • 在血缘图中的输入框输入关键词,展示当前表下游节点中包含该关键词的所有表;也可输入@+账号名称,展示当前表下游节点中该账号名下的所有表。

    • 根据业务需求单击血缘图中的image.pngimage.png,展开或收起相应的上下游节点。

  • 查看字段血缘

    字段血缘页签,您可查看目标字段的血缘关系详情。主要包括:

    • 可根据业务需求在切换字段区域切换当前表中的字段,查看所选字段对应的字段血缘图。

    • 查看当前字段血缘关系中各节点的上下游节点个数。鼠标悬停至字段或任务类型,即可查看该字段或任务类型的基本信息、日志、代码等。

    • 在血缘图中的输入框输入关键词,展示当前字段下游节点中包含该关键词的所有字段;也可输入@+账号名称,展示当前字段下游节点中该账号名下的所有字段。

    • 根据业务需求单击血缘图中的image.pngimage.png,展开或收起相应的上下游节点。

  • 影响分析

    若当前表的表结构或表数据发生变化,均会对下游节点产生影响,可通过影响分析查看当前表存在哪些下游表,提前预知变更操作可能影响到哪些表。您可以在该页面根据血缘层级、任务类型、表类型等信息进行筛选,展示所分析的血缘层级中符合条件的下游表,并支持下载分析结果至本地。

    说明

    最多支持分析50层表血缘层级。

查看表的使用记录

通过频繁关联访问统计维度为您展示表的使用记录

  • 频繁关联:为您展示有多少人在使用当前的表数据。

    说明

    统计30天内作为关联条件参与计算的次数,此数据为离线统计,有T+1的延迟。

  • 访问统计:以图表方式为您展示表的使用记录。

    • 读取趋势图:折线图上日期对应的为日期当天的读取次数,区分是从开发环境还是生产环境进行读取;字段关联次数与任务执行次数和该字段在代码中出现的次数相关,此数据为离线统计,有T+1的延迟。

      例如:如果在同一个任务中字段出现1次,如果任务执行2次,统计次数便为2次;如果字段在代码中出现2次,那么一次任务运行,其字段统计次数便为2次。

    • 字段热度明细:字段在SQL中的使用次数(where、select、join、groupBy)的统计信息。此数据为离线统计,有T+1的延迟。

    • 读取Top人员:统计近30天内,在SQL中对表的读取人员的统计信息(包含调度使用的生产账号和个人账号的访问),其读取内容包括对字段的where、select、join、groupBy等操作。此数据为离线统计,有T+1的延迟。

查看数据统计信息和分布情况

数据探查通过分析数据的结构和取值,为您展示数据的统计信息和分布情况等探查结果。

说明

数据探查的使用限制如下:

  • 仅支持探查分区表。

  • 仅支持探查生产环境的表。

  • 仅表的所有者有权限开启自动探查功能。

  • 仅上海地域支持使用该功能。

单击数据探查,设置探查方式并查看探查记录。数据探查提供手动探查自动探查两种方式:

  • 手动探查:配置手动探查任务的操作如下:

    说明

    探查任务运行在当前表所在的MaxCompute项目下,单表探查仅支持10列。为优化资源,请仅勾选需要探查的列。

    1. 数据探查页签下,单击手动探查

    2. 手动探查对话框中,配置各项参数。

      • 分区取值列表中,选择需要探查的分区。

      • 详细配置,选中需要探查的列。

      • 根据上述配置,预估运行探查任务所需要的费用。

        重要
        • 数据探查需要执行MaxCompute SQL语句,会带来一定的MaxCompute计算费用。该页面的预估费用仅为参考,实际费用受处理的数据量影响,会有波动,请以MaXCompute账单为准。

        • 数据探查复用数据质量产品能力,将会同时产生数据质量实例费用,此部分费用由DataWorks收取,详情请参见:计费简介

    3. 选中我了解数据探查服务需要收费,单击提交

    4. 待探查结束,在数据探查页签下,查看探查结果。

      您可以从探查记录列表中,选择需要查看的探查结果。其中数据分布 > 值范围是对某个字段的数据值分布的阶段进行统计。

  • 自动探查:配置自动探查的操作如下:

    1. 打开自动探查开关。

    2. 自动探查(当分区信息发生变化时进行探查)对话框中,配置各项参数。

      • 详细配置,选中需要探查的列。

      • 触发绑定列表中,选择需要关联的调度节点触发自动探查。您可以在运维中心查找调度节点的ID,建议您选择当前表对应的产出任务。

        选择需要探查的指标并提交自动探查后,探查任务会在关联的调度任务运行完成后再运行,针对最新的分区进行探查。

      • 根据上述配置,预估运行探查任务所需要的费用。

    3. 选中我了解数据探查服务需要收费,单击提交

    4. 待探查结束,在数据探查页签下,查看探查结果。

      您可以从探查记录列表中,选择需要查看的探查结果。

申请和管理表权限

您可通过DataWorks安全中心申请MaxCompute表的查询与操作权限,并在数据地图查看申请记录。

  • 申请表权限

    1. 进入表详情页面,单击申请权限

      image.png

      说明

      如果表被隐藏,则不会显示申请权限按钮。

    2. 默认进入新版安全中心的权限申请页面。详情请参见MaxCompute数据访问权限控制

  • 管理表权限

    1. 数据地图左侧菜单栏,单击我的数据

    2. 在左侧导航栏,单击权限管理

      您可以在权限管理页面申请函数和资源权限,并查看待我审批申请记录我已处理的。您可以设置权限有效期,超过申请权限时长时,系统将自动回收该权限。详情请参见查看和管理权限

管理MaxCompute表

使用数据专辑管理表

您可以将当前表加入目标数据专辑中,在目标数据专辑详情页面进行表管理,或者查看当前表已经加入的相关数据专辑。详情请参见业务视角管理:数据专辑

配置类目导航管理表

您可以在数据地图左侧菜单栏单击配置管理>类目管理配置,配置类目导航对MaxCompute表进行管理。详情请参见类目导航管理:配置管理