数据探查可以帮助您快速了解数据概况,提前评估数据可用性和潜在风险,您可对数据表进行全量探查、抽样探查。本文为您介绍如何新建数据探查任务。
前提条件
需开通数据质量功能模块才可使用数据探查功能。
使用限制
当计算引擎为AnalyticDB for PostgreSQL、ArgoDB、StarRocks时,不支持数据探查功能。
当数据表类型为元表、镜像表、标签逻辑表时,不支持使用数据探查功能。
当数据表的存储类型为Hologres或Kudu时,不支持使用数据探查功能。
每次探查可选择的字段最多不超过1500个。
重要如果选择的探查字段或探查场景较多,可能会消耗数据表所在项目或板块较多的计算源资源,影响即席查询或周期任务调度等功能,建议您结合业务场景选择单次探查的字段个数或任务的探查场景。
权限说明
超级管理员和运营管理员支持新建及管理所有数据表的数据探查;当前数据表负责人仅可新建及管理自己所负责表的数据探查。
项目管理员支持新建及管理所负责项目下物理表的数据探查。
板块管理员支持新建及管理所负责板块下逻辑表的数据探查。
使用场景
集成任务中来源表的核心字段为JSON类型,需要使用get_json_object
函数提取关键字段信息后再同步到目标数据表。您可以为目标表创建一个自动数据探查任务,指定在该集成任务运行成功后触发探查,校验该核心字段的解析结果是否符合预期(如是否存在空值、字段分布是否符合预期),避免影响下游业务使用。
数据探查入口
在Dataphin首页,在顶部菜单栏选择治理 > 资产清单。
单击表页签,您可以根据表类型筛选物理表、逻辑表、物理视图、逻辑视图、物化视图。
在表列表中,单击目标表的名称或操作列下的图标,进入资产详情页面。
在资产详情页面,单击数据质量页签,再单击数据探查。
配置手动数据探查
单击发起手动探查按钮,进入新建手动数据探查对话框。
同一时间内仅能有一个运行的手动探查任务,如果已经有正在运行中或等待中的手动探查任务,您可终止探查后再重新发起。
在新建手动数据探查对话框,配置参数。
探查配置
参数
描述
数据表
为您展示当前需探查数据表的名称,不可修改。
探查分区
仅分区表需配置探查的分区范围。您可快捷选择已存在的指定分区(同数据表资产详情页面的明细信息-分区信息页签已生成的分区),也可手动填写表达式一次探查多个分区,例如:
ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')
。如果有多级分区,则至少指定一级分区。
探查内容
选择需探查的字段以及对应的探查场景。
空值统计:统计字段值为Null值的记录数,所有数据类型均支持。
数值型:额外统计0值记录数。
文本型:额外统计空字符串记录数。
字段值分布:对字段值的分布情况进行统计,并生成字段值分布图,所有数据类型均支持。
数值型:统计该字段已选记录的最大值(Max)、最小值(Min)、平均值(Avg)、Null值记录数、唯一值记录数、标准差、25%分位数、中位数、75%分位数。
文本型:统计该字段已选记录的最大字符长度、最小字符长度、平均字符长度、Null值记录数、唯一值记录数。
说明不同计算引擎的字段类型char的长度函数(length)定义不同。
当计算引擎为星环TDH 6.x时,char的长度(length)获取的是该字段类型定义的长度,而不是实际长度。例如:字段
name (char 10)
,其中,只存储了name
4个字符,但是,length函数获取返回的字符串长度为10,而不是4。当计算引擎为其他类型时,char的长度(length)获取的是该字段类型的实际长度,而不是字段类型定义的长度。例如:字段
name (char 10)
,其中,只存储了name
4个字符,但是,length函数获取返回的字符串长度为4,而不是10。
日期时间型:统计该字段已选记录的最大值(Max)、最小值(Min)、Null值记录数、唯一值记录数。
布尔型:统计该字段的Null值记录数。
唯一值统计:统计该字段的唯一值记录数及重复次数最高的5个字段值。布尔型不支持唯一值记录数统计。
数据过滤
开启后,可在代码框中配置数据过滤的脚本。例如:
city = 'hangzhou'
。探查范围
用于设置需要探查记录数。支持全部记录、随机抽样n条记录、百分比抽样n%记录。
全部记录:已选字段指定分区内的所有记录均参与探查,适用于需要对全量数据进行探查的场景,可以更准确的反馈数据情况;如果记录数较多,可能会运行较长时间,消耗较多资源。
随机抽样n条记录:从已选字段指定分区内随机抽取n条记录进行探查。若可探查的总记录数小于抽样数,则返回全部记录。最多抽样10000条记录。支持输入1~10000之间的整数。
百分比抽样n%记录:从已选字段指定分区内随机抽样n%的记录进行探查,非精确值。
说明仅计算引擎为MaxCompute时支持百分比抽样。
选择随机抽样或百分比抽样时,如果勾选的探查字段较多,不同字段及同个字段不同探查场景的抽样结果可能不同,会影响结果的准确性。
探查结果
支持给不同数据表配置探查报告的查看权限,以便更好的管控敏感数据。支持2种配置方式:
公开:有权限查看该数据表详情页的用户均可查看探查报告。
仅管理员和负责人可见:支持超级管理员、运营管理员、当前数据表所在项目管理员及板块的管理员、当前数据表负责人查看。
SQL预览
可查看基于当前探查配置生成的探查SQL,便于了解更多探查信息。支持切换SQL进行查看。
系统为优化探查任务和保障系统的稳定性,同时为了提升探查效率,根据已勾选的探查字段及探查场景将探查语句自动拆分为多个SQL执行。
单击确定,完成手动数据探查配置。
配置自动数据探查
需在数据探查全局配置中开启该数据表所在的项目或板块自动探查功能。
单击配置自动探查按钮,进入自动探查配置对话框。
在自动探查配置对话框,配置参数。
探查配置
参数
描述
自动探查
默认关闭,开启后可为数据表配置自动探查任务。
说明若之前开启,关闭后不会生成新的探查记录,正在执行中的探查任务不受影响。
若之前已配置探查任务,修改后已生成或正在执行中的探查任务不受影响。
数据表
为您展示当前需探查数据表的名称,不可修改。
探查分区
仅分区表需配置探查的分区范围。支持选择最新分区和指定分区。
最新分区:系统为您获取资产-目录下定时获取的分区数据的最新值(同数据表资产详情页面的明细信息-分区信息页签已生成的分区),可能与表实际最新分区有差异。
指定分区:您可手动填写表达式一次探查多个分区,例如:
ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')
。也可快捷选择系统内置的分区表达式。更多信息,详情请参见分区表达式介绍。说明支持跨分区探查,分区数越多运行时间越长,为优化资源请避免跨过多分区。
如果有多级分区,则至少指定一级分区。
探查频率
用于设置探查任务的调度场景,支持2种探查方式:
定时探查:按照设置的时间,周期性的对数据进行探查。调度周期包括日、周、月三种。
指定任务运行成功后探查:选择的数据表在运行成功后,会触发当前表的数据探查任务,支持选择生产环境下日、周、月调度的脚本任务。
说明当选中任务空跑调度时不会触发数据探查。
探查内容
配置方式与手动探查一致,详情请参见手动探查探查配置。
数据过滤
探查范围
探查结果
SQL预览
可查看基于当前探查配置生成的探查SQL,便于了解更多探查信息。详情请参见手动探查的SQL预览。
单击确定,完成自动探查配置。
说明当部分项目或板块下开启自动探查的数据表范围变更,并且删除数据表之前已经开启了数据探查配置,移除数据表后将自动关闭所有相关数据表的自动探查,正在探查中和已生成的任务不受影响。
后续说明
探查任务运行结束后,您可查看不同字段数据类型对应的结果展示。更多信息,请参见查看数据探查报告及探查记录。