MaxCompute/Hadoop/Lindorm(计算引擎)物理视图和字段详情

本文为您介绍如何查看计算引擎为MaxCompute、Hadoop、Lindorm(计算引擎)时的物理视图和字段资产详情。

物理视图详情入口

  1. 在Dataphin首页,在顶部菜单栏选择治理 > 资产清单

  2. 单击页签,您可以根据负责人、我负责的、资产标签、项目、环境、数据板块、主题域、表类型、存储格式筛选目标资产。

  3. 在物理视图列表中,单击目标视图的名称或操作列下的image图标,进入对象详情页面。

物理视图详情

MaxCompute、Hadoop、Lindorm(计算引擎)引擎的物理视图展示信息基本一致,下图以MaxCompute物理视图为例。

image

编号

描述

概要信息

为您展示表的类型、环境、名称、标签、描述等信息。同时,您还可以执行如下操作:

  • 搜索其他资产对象:您可以快捷搜索并切换查看其他资产的详情。

  • 查看资产详情:如果当前对象已上架到资产目录,您可以快捷跳转至目录详情页查看已上架信息。

  • 查看生产/开发对象:支持快速切换当前对象在对应生产/开发环境的对象详情。

  • 标签:为您展示当前资产已配置的标签值。如需修改标签,您可以单击编辑

    • 每个标签值的长度不超过128个字符。

    • 每个资产对象最多可配置20个标签值。

    • 超级管理员可以修改所有表类型的资产标签,当前表负责人可以修改自己是表的负责人的资产标签;项目管理员支持修改所负责项目下的物理视图的资产标签。

  • 收藏:单击即可收藏或取消收藏。收藏后,您可以在资产清单列表-我的足迹查看最近收藏的30条资产,方便后续查询;您也可以在个人数据中心查看全量收藏的资产,详情请参见查看及管理我收藏的资产

  • 去分析:单击跳转至Notebook页面自动创建对应的Notebook任务,详情请参见新建Notebook

  • 申请权限:单击快捷跳转到当前表的权限申请页面,详情请参见申请、续期和交还表权限

  • 生成select语句:单击生成当前表查询语句,可选择是否需要添加转义符。您可以复制查询语句后到即席查询或分析页面查询数据。

    image

  • 查看DDL语句:单击右上角的更多,选择查看DDL语句,单击查看当前数据表在租户计算引擎中对应的DDL语句。此外,您也可以选择数据源类型,单击生成DDL语句,系统将生成在指定类型的数据源系统中创建与当前表相同结构的表DDL语句。若您选中了自动添加转义符,生成的DDL语句将根据选择的源类型自动添加对应的转义符,减少系统关键词误转义等问题产生。

    image

  • 导出字段:单击右上角的更多,选择导出字段,导出表中的字段信息,格式类型为CSV,便于其他开发或业务人员快速分析使用。

  • 查看转交记录::单击右上角的更多,选择查看转交记录,为您展示当前数据表最近100条负责人转交记录。

  • 查看权限列表:单击右上角的更多,选择查看权限列表,查看数据表权限信息。

  • 刷新元数据:单击右上角的更多,选择刷新元数据,若数据表不是通过Dataphin平台创建,或由于系统元数据获取延迟导致查询新建表无结果时,您可以单击刷新元数据获取最新的元数据信息,将指定的数据表元数据刷新至Dataphin系统中。 

说明

分析平台表不支持去分析、申请权限、查看转交记录、查看权限列表操作。

明细信息

为您展示表、字段的明细信息。

  • 表详情:为您展示该表的技术属性信息,包括数据板块、主题域、项目、最高涉密等级、是否分析平台手工表、存储类型。

    • 项目:当前表归属的项目信息,单击项目的名称,可跳转至该项目的资产详情页。

    • 最高涉密等级:当前表字段已有的最高敏感等级,便于快速了解当前表数据的数据保密情况,数据分级等级从低到高为L1、L2、L3、L4(公开到绝密)及自定义的数据分级。

    • 存储类型:当前表的存储类型,包括内部表、外部表。

  • 字段信息:包括字段详情、描述、数据类型、关联标准(需购买数据标准模块)、数据分类(需购买安全模块)、数据分级(需购买安全模块)、热度信息,同时,您可以单击操作列下的血缘关系image图标,查看以指定字段为中心的字段血缘关系。

血缘&影响

  • 血缘为您展示表、字段之间的血缘关系。

    • 表级血缘来源包括集成同步任务、自定义血缘的计算任务及系统可自动解析血缘的SQL计算任务和逻辑表任务。任务提交时解析开发表血缘,发布时解析生产表血缘。详情请参见表级血缘

    • 字段血缘来源包括自定义血缘的计算任务及系统可自动解析血缘的SQL计算任务和逻辑表任务,不包括集成同步任务。任务提交时解析开发字段血缘,发布时解析生产字段血缘。详情请参见字段级血缘

      说明

      系统在任务提交时,解析开发环境的表和字段血缘关系;发布时,解析生产环境的表和字段血缘关系。单个任务提交或发布时支持解析不超过10万条血缘关系,超过则不予记录,在资产目录中无法展示。

  • 影响分为数据表影响集成同步影响,为您展示引用了当前表的直接下游表,引用了直接下游表的间接下游表以及对应的集成同步任务,最多15层。支持导出数据查看。

    选中仅展示直接下游表后,默认展示当前表直接影响的下游表,取消选中将展现所有下游影响表,最多展示15层。

    选中仅展示当前表影响后,默认展示当前表作为输入表的集成任务,取消选中将展现当前及所有下游影响表作为输入表的集成任务,最多展示15层。

数据探查

若您开通了数据质量功能,可以为数据表配置数据探查任务,快速了解数据概况,提前评估数据的可用性和潜在风险,如果您需要开启自动探查,可以在元数据中心-探查配置中开启相应配置,详情请参见新建数据探查任务

说明

物理视图暂不支持配置质量规则。

数据预览

若您拥有当前表的查表数据权限,可以使用数据预览功能,否则需先申请查询权限。如何申请,请参见申请、续期和交还表权限

说明

数据预览为您展示20条抽样查询数据。

当计算引擎为E-MapReduce3.x、E-MapReduce5.x、CDH5.x、CDH6.x、FusionInsight 8.x、Cloudera Data Platform 7.x、亚信DP5.3时,若在Hadoop计算源配置页面开启Impala加速引擎,则使用Impala运行SQL;若开启Spark加速引擎,则使用Spark运行SQL;两者均不开启,则使用Hive SQL运行。

产出信息

产出任务包含该对象的数据写入任务、血缘自动解析或自定义配置以当前表为输出表的任务,以及节点输出名称 = 项目名.表名的任务。

产出任务列表准实时更新,产出明细T+1更新。

image.png

  • ①查看产出明细:仅支持查看周期任务的产出明细,详情请参见产出明细

  • ②去运维:单击去运维按钮,可跳转至运维中心的任务列表页面并筛选出当前任务,查看更多信息。

使用说明

您可为数据表添加使用说明,为数据浏览者和消费者提供信息参考。可单击新增使用说明,填写使用说明标题及内容完成添加。image

资产信息

为您展示物理视图的基础信息变更信息使用信息等详细信息。

  • 基础信息:包括环境、表类型、创建时间、创建人、负责人、产出任务。

    • 负责人:当前表的负责人,支持转交当前表的负责人给其他用户,在转交负责人对话框中,您可以选择是否同步转交开发/生产环境表,选择接收人后,单击确定即可立即转出,建议在转交后及时同步接收人。您可以在转交记录页面查看转交信息,详情请参见查看转交记录

      说明
      • 超级管理员可转交所有表类型的负责人,当前表负责人可转交自己是负责人的表。

      • 项目管理员支持转交所负责项目下的物理表的负责人。

    • 产出任务:您可查看当前表产出任务,包含该对象的数据写入任务、血缘解析或配置以当前表为输出表的任务,以及节点输出名称 = 项目名.表名的任务。单击产出任务的名称,跳转至该数据表的运维详情页。

      说明

      仅支持查看周期任务的产出明细。

  • 变更信息:包括最近访问、DDL变更。

    • 最近访问:Dataphin基于SQL解析到的最近1次select时间(对应DQL操作),外部系统触发的访问不统计,实时更新。

    • DDL变更:Dataphin基于SQL解析到的最近1次表结构变更时间(对应DDL操作),外部系统触发的变更不统计,实时更新。

  • 使用信息:包括收藏数、浏览量、访问次数。

    • 收藏数:为您展示收藏当前表的用户数,实时更新。

    • 浏览量:为您展示当前数据表的访问页次(PV),每刷新1次增加1次,实时更新。

    • 访问次数:基于SQL解析到该表在Dataphin任务中被select时(对应DQL操作),计算为1次,T+1更新,展示最近30天的总访问次数。

表级血缘

表级血缘页面为您展示包括集成同步任务、自定义血缘的计算任务及系统可自动解析血缘的SQL计算任务和逻辑表任务血缘关系图。

image

序号

描述

快捷操作区

  • 仅展示直接血缘:选中后仅展示当前表直接血缘关系的上下游相关表。

    说明
    • 直接血缘是通过select、insert等语句读取或写入的上下游相关资产。

    • 关联血缘是通过join、group by、where条件等方式引用的相关资产。

    • 表级血缘只要包含有直接血缘的字段就会展示对应的标识。

  • 隐藏数据源表:选中后将隐藏来自数据源的表对象及其下游。

  • 隐藏已删除表:血缘在提交和发布任务时进行解析。特殊情况下,如果数据表不是通过Dataphin调度任务删除的(如通过即席查询删除或直接在引擎侧删除),则不会触发血缘更新,仍会展示在血缘图中。选中后,将不会展示已经删除的表对象。

图例区

表级血缘支持的数据表,包括物理表维度逻辑表事实逻辑表汇总逻辑表标签逻辑表物理视图物化视图逻辑视图元表镜像表数据源表

血缘图展示区

为您展示完整的血缘链路图,可手动展开多级上游或下游,支持根据数据表名称关键字进行模糊搜索。

特殊的,若存在循环依赖,则无法继续展开,需从起始节点继续查看下游。

对象详情区

鼠标悬停在表上,为您展示表的详情。

数据源表:为您展示表的名称对象类型存储格式所属数据源血缘来源

Dataphin数据表:为您展示表的名称对象类型存储格式、逻辑表及逻辑视图的所属板块/物理表及物理视图的所属项目负责人存储量生命周期(Lindorm(计算引擎)、Hadoop计算引擎不支持展示该信息)描述血缘来源信息,同时您可以进行查看血缘查看DDL申请权限操作。

  • 查看血缘:单击可快捷查看该表的表级血缘。

  • 查看DDL语句:当数据表为物理表、物理视图、镜像表时,可单击查看表的DDL语句。

  • 申请权限:单击可快捷跳转到该表的表权限申请页面。

字段级血缘

字段血缘页面为您展示自定义血缘的计算任务及系统可自动解析血缘的SQL计算任务和逻辑表任务,不包括集成同步任务的血缘关系图。

image

序号

描述

快捷操作区

  • 仅展示直接血缘:选中后仅展示当前字段直接血缘关系的上下游相关字段。

    说明
    • 直接血缘是通过select、insert等语句读取或写入的上下游相关资产。

    • 关联血缘是通过join、group by、where条件等方式引用的相关资产。

  • 隐藏已删除字段:血缘在提交和发布任务时进行解析。特殊情况下,如果数据表不是通过Dataphin调度任务删除的(如在即席查询或直接在引擎侧删除),则不会触发血缘更新,仍会展示在血缘图中。选中后,将不会展示已经删除的表对象。

图例区

字段血缘支持的字段,包括计算源表字段数据源表字段

血缘图展示区

为您展示完整的血缘链路图,可手动展开多级上游或下游,支持根据字段名称关键字进行模糊搜索。

特殊的,若存在循环依赖,则无法继续展开,需从起始节点继续查看下游。

单击中心字段可通过字段关键字进行模糊搜索以切换查看不同字段的血缘关系图。

对象详情区

鼠标悬停在表上,为您展示字段的名称对象类型存储格式、字段所在逻辑表及逻辑视图的所属板块/字段所在物理表及物理视图的所属项目所属表表负责人数据类型描述血缘来源信息,同时您可以进行查看血缘申请权限操作。

  • 查看血缘:单击可快捷查看该字段的字段血缘。

  • 申请权限:单击可快捷跳转到该字段所在表的表权限申请页面。

产出明细

您可查看该数据表产出任务,包含该对象的数据写入任务、血缘解析或配置以当前表为输出表的任务,以及节点输出名称 = 项目名.表名的任务。

image

序号

描述

任务详情

为您展示节点名称任务ID所属板块负责人信息。

周期实例

为您展示平均开始时间平均产出时间平均运行时长信息。

  • 平均开始时间:统计最近15天所有正常调度的周期实例,第一次运行开始时间的平均值,T+1更新。

  • 平均产出时间:统计最近15天所有正常调度的周期实例,第一次运行成功的结束时间的平均值,重跑场景不纳入统计, T+1更新。

  • 平均运行时长:统计最近15天所有正常调度的周期实例,所有运行成功记录的平均运行时长的平均值,其中脚本任务的平均运行时长统计包括重跑场景,逻辑表任务的平均运行时长统计不包括重跑场景, T+1更新。

    说明

    小时、分钟实例支持按照周期查看运行明细,以当前任务最新调度配置划分的周期区间为准,计算定时时间相同的历史实例对应的运行平均值。

运行明细

为您展示业务日期状态定时时间开始时间结束时间运行时长信息。同时,您可以在操作列下进行查看实例查看日志操作。

  • 查看实例:单击查看实例按钮,在周期实例列表,可查看并管理任务,如何管理请参见查看并管理脚本实例

  • 查看日志:可查看该实例任务的运行日志详情。

字段详情

为您展示当前字段所在数据表的表详情,详情请参见物理视图详情