数据探查配置可开启自动探查的数据表范围,管控数据探查记录、并发运行任务数、任务探查时间及配置set参数,从而更合理的运用资源。本文为您介绍如何进行数据探查的全局配置。
前提条件
需开通域内数据质量功能才可使用数据探查功能。
使用限制
仅支持针对Dataphin数据表进行数据探查。
当计算引擎为AnalyticDB for PostgreSQL、ArgoDB、StarRocks时,不支持数据探查功能。
权限说明
超级管理员、运营管理员和具有数据探查配置权限的自定义全局角色可以进行数据探查全局配置。
数据探查配置
在Dataphin首页,单击顶部菜单栏的治理 > 元数据。
单击左侧导航栏的数据探查,进入数据探查配置编辑页面,再单击底部的编辑按钮。
在数据探查配置编辑页面,配置参数。
参数
描述
自动探查配置:配置可开启自动数据探查配置的数据表范围。
重要数据探查会消耗数据表所在项目或板块的计算源资源,请结合实际业务情况,合理配置。
物理表范围
支持通过项目圈选可开启自动探查的物理表及物理视图范围,支持选择全部项目、全部生产项目(Basic及Prod)、指定项目。
全部项目:指所有项目下的物理表和物理视图(包括当前已创建和后续新建的所有项目)均可开启自动探查。
全部生产项目(Basic及Prod):指所有生产项目下的物理表和物理视图(包括当前已创建和后续新建的所有生产项目)均可开启自动探查。
指定项目:选择可开启自动探查的项目,支持多选。
逻辑表范围
支持通过数据板块圈选可开启自动探查的逻辑表及逻辑视图范围,支持选择全部板块、全部生产板块(Basic及Prod)、指定板块。
全部板块:指所有板块下的逻辑表和逻辑视图(包括当前已创建和后续新建的所有板块)均可以开启自动探查。
全部生产板块(Basic及Prod):指所有生产板块下的逻辑表和逻辑视图(包括当前已创建和后续新建的所有生产板块)均可开启自动探查。
指定板块:选择可开启自动探查的板块,支持多选。
系统配置
探查记录
支持两种方式:
仅保留最新探查记录及报告:
如果最近一次运行成功并生成探查报告,会清空历史所有运行记录,包括运行成功和失败的。
如果最近一次运行失败,会保留该失败记录以及历史最近一次运行成功的探查记录和对应的报告,同时清空历史其他运行失败的失败记录;如果历史没有运行成功的记录,仅保留本次运行失败的记录。
保留最近n天探查记录:保留最近n天所有的探查记录及对应的探查报告,包括运行成功和失败的,可在探查记录列表统一查看。默认配置为15天,可配置的时间范围为1~90天之间的整数。
并发限流
用于控制同时运行的探查任务数量。系统支持最小并发运行任务数为1,最大不超过5。支持输入1~5之间的整数。
探查超时
用于控制单个探查任务的最长运行时间,防止运行过久持续占用资源影响其他任务或功能。如果单个探查任务运行时长超过设定的上限,则任务会被自动置为失败。支持时间范围为0~24小时(不包括0),支持设置最多一位小数。
高级参数配置
开启后,支持针对全局探查任务设置set参数,以便对探查任务运行进行调优或适配某些计算引擎的特殊设置。
单击参数配置框的参考示例,可查看并复制参考语句。
单击典型场景说明,可查看常见的探查任务运行报错示例以及如何通过参数配置的解决方法,详情请参见典型场景说明。
单击确定,完成数据探查全局配置。
说明当部分项目或板块下开启自动探查的数据表范围变更,并且删除数据表之前已经开启了数据探查配置,移除数据表后将自动关闭所有相关数据表的自动探查,正在探查中的任务不受影响。
后续步骤
完成数据探查配置后,您可以对Dataphin数据表执行自动探查配置,更多信息,请参见新建数据探查任务。