创建及管理识别特征

识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别特征。本文为您介绍如何创建及管理识别特征。

前提条件

  • 识别特征可以同时用于智能推荐数据标准映射关系与字段的分类分级打标结果。特征扫描配置将同时影响标准模块的落标映射规则与安全模块的识别规则运行,请结合两个模块的使用场景合理配置,以减少语义冲突、资源浪费等问题的产生。

  • 智能生成处于公测阶段,如您有相关需求,请联系Dataphin技术支持。

权限说明

超级管理员、数据标准管理员、安全管理员和具有识别特征-管理权限的自定义全局角色支持新建及管理识别特征。

识别特征扫描配置

  1. Dataphin首页的顶部菜单栏,选择治理 > 数据标准

  2. 在左侧导航栏选择通用配置 > 识别特征,在识别特征页面,单击特征扫描配置

  3. 特征扫描配置对话框中,配置参数。

    参数

    描述

    扫描配置

    并发运行数

    用于控制同时扫描的资产对象数量,包括标准模块按照识别特征映射的落标映射规则任务、安全模块的手动扫描、实时扫描、血缘更新触发的自动继承扫描任务,默认为16,支持配置1~100的正整数。

    说明

    增大并行度可加快扫描进度,但会占用更多的集群计算资源,为保证系统稳定性,请您根据业务需求进行合理配置。

    扫描禁用期

    开启后,配置扫描禁用期的开始时间和结束时间。在指定的时间段内,全局特征识别任务将不会运行,避免占用较多的计算资源影响生产环境的正常运行,以保障线上数据任务。

    全局特征识别任务包括标准和安全模块的特征识别任务。

    • 数据标准:根据识别特征智能匹配的落标映射规则任务(包括手动、定时)以及手动触发单个标准。

    • 资产安全:包括定时扫描、手动扫描、实时扫描以及基于血缘继承的识别任务。

    扫描范围

    选择识别规则的扫描范围,默认选中过滤视图,支持切换为包含视图

    说明
    • 批量导入和手动添加识别结果不受此处配置影响,可直接添加视图对象的识别结果。

    • 扫描范围选择包含视图,基于规则自动扫描和基于血缘自动继承两种扫描方式将对视图对象进行分类分级打标。

    • 视图对象包括物理视图、逻辑视图、数据源视图、数据源物化视图和物化视图。

    采样配置

    采样存储

    为了降低每次识别任务的成本,提高识别准确率,支持对采样数据进行加密存储。需要注意的是,节约计算资源的同时会消耗部分存储资源。

    开启后会存储数据采样,后续识别任务只会扫描采样数据。采样数据的更新频率可以根据业务需求设置。开启后需配置以下参数:

    • 采样更新:更新采样存储数据,提高长期识别的准确率。

      • 不更新:仅采样存储一次,如果采样成功,则后续不会主动更新数据。

      • 有新数据则更新:识别时,若数据表有新数据(以DDL/DML时间判断)则更新采样数据。

      • 7天更新一次:识别时,如果距离上次采样成功超过7天,则重新采样。

      • 30天更新一次:识别时,如果距离上次采样成功超过30天,则重新采样。

    • 空值补偿:当采样数据中单个字段全是空值时,将无法按照内容识别。

      • 开启空值补偿后,如果抽样的字段全是空值,会再次进行一次非空采样,采样成功进入识别流程,采样失败则该字段不进行识别。

      • 开启后会提升识别的准确率,但可能也会导致识别成本上升,请根据业务需求判断是否需要开启。

    资源配置

    运行项目

    • 识别任务会占用一定的计算资源,正常情况下选择数据所在项目即可。

    • 对于部分项目是按量付费、部分项目是包年包月付费的情况下,推荐选择包年包月项目执行识别任务,以减少识别任务计算费用;对于有专门分配的项目资源/队列的情况下,也可以指定项目执行,减少对正常业务项目的干扰。

    • 选择项目的计算源需要有访问其他项目的权限,否则可能会出现无法扫描的情况。

    说明

    当计算引擎为Impala时,扫描的数据表为Kudu表,需选择开启Impala任务的项目,方可使用Impala SQL扫描成功。

  4. 单击确定,完成识别特征扫描配置。

新建识别特征

  1. 识别特征页面,单击新建特征按钮。

  2. 添加特征对话框中,配置参数。配置信息与数据安全 > 识别特征的一致,详情请参见新建识别特征

  3. 单击确定,完成识别特征的添加。

管理识别特征

  1. 识别特征页面,为您展示识别特征的名称、描述、类型、最近更新人以及最近更新时间信息。

  2. (可选)您可以根据识别特征的名称搜索目标识别特征,也可以根据识别特征的类型筛选目标识别特征。

  3. 您可以对目标识别特征执行如下操作。支持的操作与数据安全 > 识别特征的一致,详情请参见管理识别特征

后续步骤

  • 您可以在创建数据标准时,指定标准相关的识别特征,如:身份证号标准,关联身份证号特征。配置详情请参见新建及管理数据标准

  • 您可以在创建映射规则时选择映射方式-按识别特征智能匹配,则规则运行时会基于圈选的数据标准已配置的识别特征与圈选的资产对象进行特征匹配,从而推荐合适的映射关系。配置详情请参见新建和管理落标映射规则

智能生成

Dataphin支持基于百炼大模型平台或通义千问等大模型能力,根据输入的识别特征名称自动识别含义,智能生成可表达特征数据内容的正则表达式和可能的字段名称,快速推荐识别特征定义,降低配置成本并提升准确度。当前该功能处于邀测阶段,如您感兴趣,请联系产品团队沟通。