数据集详情

更新时间:
复制为 MD 格式

本文为您介绍如何查看数据集详情。

前提条件

需联系Dataphin团队开通非结构化数据功能后才能查看数据集详情。

数据集详情入口

  1. Dataphin首页,单击顶部菜单栏的治理 > 资产清单

  2. 单击数据集页签,选择目标数据集,单击数据集的名称或操作列下的image图标,进入对象详情页面。

数据集详情

image

区域

描述

概要信息

为您展示数据集的类型、环境、名称、描述等信息。同时,您还可以执行如下操作:

  • 搜索其他资产对象:您可以快捷搜索并切换查看其他资产的详情。

  • 查看生产/开发对象:支持快速切换当前对象在对应生产/开发环境的对象详情。

属性信息

为您展示基本信息和版本信息。

  • 基本信息:为您展示数据集的所属项目、数据集类型、对象存储类型、元数据存储类型、内容类型。

    项目:当前数据集归属的项目信息,单击项目的名称,可跳转至该项目的对象详情页。

  • 版本信息:支持切换版本查看文件存储和元数据存储信息。

    • 文件存储:为您展示文件存储的数据源、路径、挂载路径、描述信息。

      数据源:当前数据集关联的数据源信息,单击数据源的名称,可跳转至该数据源的对象详情页。

    • 元数据存储:为您展示元数据存储的数据源、database/schema、表名称、元数据表结构信息。

      • 数据源:当前数据集关联的数据源信息,单击数据源的名称,可跳转至该数据源的对象详情页。

      • 元数据表结构:若字段为主键,则用主键进行标识。

文件列表/元数据预览

当数据集类型为文件数据集时展示文件列表;当数据集类型为表数据集或混合数据集时展示元数据预览。

  • 文件列表:为您展示对象存储OSS指定路径下的文件信息,支持切换列表模式和预览模式查看不同版本的文件存储信息。系统默认展示指定数据源路径下前50条文件。

    • 列表模式下,可查看文件的名称、完整路径(含文件名)、文件大小(KB)、文件类型、更新时间等信息。

    • 预览模式下,可查看文件名、文件预览、完整路径(含文件名)、文件大小(KB)、文件类型、更新时间等信息。

      文件预览:单击文件的内容,支持查看文件的详细信息或播放音频、视频等。

  • 元数据预览:支持切换列表模式和预览模式查看不同版本的元数据存储信息。若您拥有当前数据集的使用权限,可以使用元数据预览功能,可预览指定数据源路径下前50条元数据。如何申请权限,请参见申请、续期和交还数据集权限

    列表模式/预览模式下,可查看创建数据集时定义的字段;在预览模式下,单击字段标识为url字段的内容,支持查看文件的详细信息或播放音频、视频等。

说明

当且仅当表数据集和混合数据集的元数据表中字段打上url标识时,支持切换查看列表模式和预览模式;否则仅展示列表模式。

血缘关系

为您展示数据集、元数据表字段的血缘关系,帮助您理清数据的来龙去脉。仅表数据集、混合数据集支持查看元数据表字段血缘。

  • 数据集血缘来源包括系统可自动解析血缘的数据归集任务、工作流任务和Python/Shell计算任务手动配置的自定义血缘,详情请参见数据集血缘

  • 元数据表字段血缘来源包括系统可自动解析血缘的数据归集任务(仅部分数据源可解析字段级血缘)、工作流任务和Python/Shell计算任务手动配置的自定义血缘,详情请参见字段血缘

说明

系统自动解析血缘关系和在计算任务中手动配置的血缘关系,在任务提交时,解析开发环境的数据集、文件源和字段血缘关系;发布时,解析生产环境的数据集、文件源和字段血缘关系。单个任务提交或发布时支持解析不超过10万条血缘关系,超过则不予记录,在资产清单中无法展示。

产出信息

包括当前数据集血缘自动解析或自定义配置以当前数据集为输出的任务,产出任务列表准实时更新,产出明细T+1更新。

  • 查看产出明细:仅支持查看周期任务的产出明细,详情请参见产出明细

  • 去运维:单击去运维按钮,可跳转至运维中心的任务列表页面并筛选出当前任务,查看更多信息。

使用说明

您可以为数据集添加使用说明,为数据浏览者和消费者提供信息参考。可单击新增使用说明,填写使用说明标题及内容完成添加。

资产信息

为您展示数据集的基础信息,包括数据集的环境、创建人、负责人、创建时间、更新时间、产出任务。

产出任务:您可查看影响当前数据集的关联任务,包括当前数据集血缘自动解析或自定义配置以当前数据集为输出的任务。

说明

仅周期任务支持查看产出明细。

数据集血缘

数据集血缘页签为您展示系统可自动解析血缘的数据归集任务、工作流任务和Python/Shell计算任务手动配置的自定义血缘的血缘关系图。

image

区域

描述

搜索区及筛选区

  • 搜索:支持根据名称关键字搜索当前页面已展开的节点,可单击搜索框后的左/右箭头,或通过键盘的上下方向键快捷切换选中的节点。系统默认定位命中的第一个节点。

  • 仅展示直接血缘:选中仅展示直接血缘,筛选出当前数据集直接血缘关系的上下游相关资产。

    说明
    • 直接血缘是通过select、insert等语句读取或写入的上下游相关资产,或包含有直接血缘的字段就会展示直接血缘标识。

    • 关联血缘是通过join、group by、where条件等方式引用的相关资产。

图例区

为您展示当前数据集所有血缘关联的资产节点,包括数据表、数据集和文件源。

血缘图展示区

为您展示完整的血缘链路图,支持手动展开多级上游或下游,可切换查看当前数据集不同版本的血缘流转关系。

  • 中心节点:展示当前数据集的名称及版本数量,并在节点左上角用当前数据集进行标识。可切换查看当前数据集不同版本的上下游血缘关系,系统将高亮显示选中版本的上下游血缘线;若未选中版本,则表示整个数据集的上下游血缘关系。

  • 其他节点:鼠标单击某个节点,可以查看该节点的对象详情(详见④对象详情区)。仅支持查看有查看权限且已采集元数据、未被删除的数据集血缘。

  • 节点连线:若节点存在自依赖关系(如数据集内一个版本依赖另一个版本),将用虚线标识。

对象详情区

鼠标悬停在其他节点上,为您展示对象详情。

  • 数据表:为您展示当前数据集所有血缘关联的数据表信息,详情请参见表级血缘对象详情区

  • 数据集:为您展示数据集的名称、对象类型、描述、内容类型和血缘来源信息,同时您可以进行查看血缘操作。

    查看血缘:单击跳转至该数据集的血缘关系详情页。

  • 文件源:为您展示文件源的名称、对象类型、数据源和bucket信息,

字段血缘

元数据表字段血缘页签为您展示系统可自动解析血缘的数据归集任务、工作流任务和Python/Shell计算任务手动配置的自定义血缘的血缘关系图。

image

区域

描述

搜索区及筛选区

  • 搜索:支持根据字段的名称关键字搜索当前页面已展开的节点,支持单击搜索框后的左/右箭头,或通过键盘的上下方向键快捷切换选中的节点。系统默认定位命中的第一个节点。

  • 仅展示直接血缘:选中仅展示直接血缘,筛选出当前字段直接血缘关系的上下游相关字段 。

    说明
    • 直接血缘是通过select、insert等语句读取或写入的上下游相关资产。

    • 关联血缘是通过join、group by、where条件等方式引用的相关资产。

图例区

为您展示当前元数据表字段所有血缘关联的字段,包括计算源表字段、数据源表字段、数据集字段。

血缘图展示区

为您展示完整的血缘链路图,可手动展开多级上游或下游查看血缘图。特殊的,若存在循环依赖,则无法继续展开,需从起始节点继续查看下游。

  • 中心节点:展示当前字段名称及所属数据集的名称和版本,并在节点左上角用当前字段进行标识。支持通过字段关键字进行模糊搜索,或根据版本切换查看对应字段的血缘关系图。

  • 其他节点:同一个数据集的不同版本单独展示节点,鼠标悬停节点支持查看详情(详见④对象详情区)。

对象详情区

鼠标悬停在其他节点上,为您展示对象详情。

  • 源表字段:为您展示当前数据集字段所有血缘关联的字段信息,详情请参见字段血缘对象详情区

  • 数据集字段:鼠标悬停在数据集字段节点上,为您展示字段的对象类型、所属数据集、数据类型、描述、血缘来源信息,同时您可以进行查看血缘操作。

    查看血缘:单击跳转至该元数据表字段的血缘关系详情页。