数据探查及分析

在数据同步到Dataphin前,对数据进行探查,可提前了解数据的分布、空值等信息,便于更加规范使用数据。本文为您介绍如何进行数据探查配置。

前提条件

需购买数据质量才可使用数据探查功能。

使用限制

部分数据源类型的表支持进行数据探查,支持的数据源请参见不同数据源支持的探查分区及探查范围

权限说明

超级管理员、运营管理员和具有探查及分析-数据探查配置的自定义全局角支持数据探查配置。

数据探查配置

  1. Dataphin首页的顶部菜单栏,选择治理 > 元数据

  2. 在左侧导航栏选择通用配置 > 探查及分析,在数据探查及分析页面,您可以为计算源表和数据源表分别进行数据探查配置。

    基础配置

    针对所有数据源类型探查记录的保存策略。

    1. 单击底部的编辑按钮,配置参数。

      探查记录:支持两种方式:

      • 仅保留最新探查记录及报告

        • 如果最近一次运行成功并生成探查报告,会清空历史所有运行记录,包括运行成功和失败的。

        • 如果最近一次运行失败,会保留该失败记录以及历史最近一次运行成功的探查记录和对应的报告,同时清空历史其他运行失败的失败记录;如果历史没有运行成功的记录,仅保留本次运行失败的记录。

      • 保留最近n天探查记录:保留最近n天所有的探查记录及对应的探查报告,包括运行成功和失败的,可在探查记录列表统一查看。默认配置为15天,可配置的时间范围为1~90天之间的整数。

    2. 单击确定,完成基础配置。

    计算源

    配置可开启自动数据探查配置的数据表范围。

    重要

    数据探查会消耗数据表所在项目的计算源资源,请结合实际业务情况,合理配置。

    1. 单击底部的编辑按钮,配置参数。

      参数

      描述

      并发限流

      用于控制同时运行的任务数量,包括数据探查和指标分析任务。系统支持最小并发运行任务数为1,默认为5。支持输入1~5之间的整数。

      高级参数配置

      开启后,支持针对全局探查任务设置set参数,以便对探查任务和指标分析任务运行进行调优或适配某些计算引擎的特殊设置。

      • 单击参数配置框的参考示例,可查看并复制参考语句。

      • 单击典型场景说明,可查看常见的探查任务运行报错示例以及如何通过参数配置的解决方法,详情请参见典型场景说明

      探查超时

      用于控制单个探查任务的最长运行时间,防止运行过久持续占用资源影响其他任务或功能。如果单个探查任务运行时长超过设定的上限,则任务会被自动置为失败。支持时间范围为0~24小时(不包括0),支持设置最多一位小数。

      物理表范围

      支持通过项目圈选可开启自动探查的物理表及物理视图范围,支持选择全部项目、全部生产项目(BasicProd)、指定项目。

      • 全部项目:指所有项目下的物理表和物理视图(包括当前已创建和后续新建的所有项目)均可开启自动探查。

      • 全部生产项目(BasicProd):指所有生产项目下的物理表和物理视图(包括当前已创建和后续新建的所有生产项目)均可开启自动探查。

      • 指定项目:选择可开启自动探查的项目,支持多选。

      逻辑表范围

      支持通过数据板块圈选可开启自动探查的逻辑表及逻辑视图范围,支持选择全部板块、全部生产板块(BasicProd)、指定板块。

      • 全部板块:指所有板块下的逻辑表和逻辑视图(包括当前已创建和后续新建的所有板块)均可以开启自动探查。

      • 全部生产板块(BasicProd):指所有生产板块下的逻辑表和逻辑视图(包括当前已创建和后续新建的所有生产板块)均可开启自动探查。

      • 指定板块:选择可开启自动探查的板块,支持多选。

    2. 单击确定,完成计算源表数据探查配置。

      说明

      若支持开启自动探查的数据表范围变更,将自动关闭不再支持的数据表的自动探查开关,正在探查中的任务不受影响。

    数据源

    数据源页面为您展示元数据已采集到且支持数据源探查及指标分析的数据源类型。配置可开启自动数据探查配置的数据源表范围。

    1. 您可查看数据源的名称、类型、任务的最大并发数、数据探查状态、探查超时时间及创建人、最新修改时间信息。

    2. 您可根据数据源名称进行搜索,也可根据数据源类型进行筛选。

    3. 您可对目标数据源配置数据探查,单击操作列下的编辑图标,在管控设置对话框中,配置参数。

      参数

      描述

      并发设置

      并发限流

      用于控制同时运行的数据源表探查任务数量。系统支持最小并发运行任务数为1,默认为5。支持输入1~5之间的整数。

      高级参数配置

      开启后,支持针对全局探查任务设置set参数,以便对数据源表探查任务和指标分析任务运行进行调优或适配某些计算引擎的特殊设置。

      • 单击参数配置框的参考示例,可查看并复制参考语句。

      • 单击典型场景说明,可查看常见的探查任务运行报错示例以及如何通过参数配置的解决方法,详情请参见典型场景说明

      数据探查

      数据探查

      默认关闭,开启后,支持数据探查的数据源表可进行数据探查。

      探查超时:当数据探查开启时支持配置。用于控制单个探查任务的最长运行时间,防止运行过久持续占用资源影响其他任务或功能。如果单个探查任务运行时长超过设定的上限,则任务会被自动置为失败。支持时间范围为0~24小时(不包括0),支持设置最多一位小数。

    4. 单击确定,完成数据源表数据探查配置。

后续步骤

完成数据探查配置后,您可以对数据表执行自动探查配置,更多信息,请参见新建数据探查任务