识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别特征。本文为您介绍如何创建及管理识别特征。
前提说明
识别特征可以同时用于智能推荐数据标准映射关系与字段的分类分级打标结果。特征扫描配置将同时影响标准模块的落标映射规则与安全模块的识别规则运行,请结合两个模块的使用场景合理配置,以减少语义冲突、资源浪费等问题的产生。
权限说明
超级管理员、数据标准管理员、安全管理员和具有识别特征管理权限的自定义全局角色支持新建及管理识别特征。
识别特征扫描配置
在Dataphin首页,在顶部菜单栏选择治理 > 数据标准。
在左侧导航栏选择通用配置 > 识别特征,在识别特征页面,单击特征扫描配置。
在特征扫描配置对话框中,配置参数。
参数
描述
扫描配置
并发运行数
用于控制同时扫描的资产对象数量,包括标准模块按照识别特征映射的落标映射规则任务、安全模块的手动扫描、实时扫描、血缘更新触发的自动继承扫描任务,默认为16,支持配置1~100的正整数。
说明增大并行度可加快扫描进度,但会占用更多的集群计算资源,为保证系统稳定性,请您根据业务需求进行合理配置。
扫描禁用期
开启后,配置扫描禁用期的开始时间和结束时间。在指定的时间段内,全局特征识别任务将不会运行,避免占用较多的计算资源影响生产环境的正常运行,以保障线上数据任务。
全局特征识别任务包括标准和安全模块的特征识别任务。
数据标准:根据识别特征智能匹配的落标映射规则任务(包括手动、定时)以及手动触发单个标准。
资产安全:包括定时扫描、手动扫描、实时扫描以及基于血缘继承的识别任务。
采样配置
采样存储
为了降低每次识别任务的成本,提高识别准确率,支持对采样数据进行加密存储。需要注意的是,节约计算资源的同时会消耗部分存储资源。
开启后会存储数据采样,后续识别任务只会扫描采样数据。采样数据的更新频率可以根据业务需求设置。开启后需配置以下参数:
采样更新:更新采样存储数据,提高长期识别的准确率。
不更新:仅采样存储一次,如果采样成功,则后续不会主动更新数据。
有新数据则更新:识别时,若数据表有新数据(以DDL/DML时间判断)则更新采样数据。
每7天更新一次:识别时,如果距离上次采样成功超过7天,则重新采样。
每30天更新一次:识别时,如果距离上次采样成功超过30天,则重新采样。
空值补偿:当采样数据中单个字段全是空值时,将无法按照内容识别。
开启空值补偿后,如果抽样的字段全是空值,会再次进行一次非空采样,采样成功进入识别流程,采样失败则该字段不进行识别。
开启后会提升识别的准确率,但可能也会导致识别成本上升,请根据业务需求判断是否需要开启。
资源配置
运行项目
识别任务会占用一定的计算资源,正常情况下选择数据所在项目即可。
对于部分项目是按量付费、部分项目是包年包月付费的情况下,推荐选择包年包月项目执行识别任务,以减少识别任务计算费用;对于有专门分配的项目资源/队列的情况下,也可以指定项目执行,减少对正常业务项目的干扰。
选择项目的计算源需要有访问其他项目的权限,否则可能会出现无法扫描的情况。
说明当计算引擎为Impala时,扫描的数据表为Kudu表,需选择开启Impala任务的项目,方可使用Impala SQL扫描成功。
单击确定,完成识别特征扫描配置。
新建识别特征
在识别特征页面,单击新建特征按钮。
在添加特征对话框中,配置参数。
参数
描述
特征名称
请填写识别特征的名称,名称唯一,最多输入128字符。
特征条件
支持选择按内容扫描、按字段名称扫描、按字段描述扫描、按数据类型扫描。
按内容扫描:根据采样读取目标字段数据内容进行识别和判断。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test的内容,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test的内容,则正则表达式定义为
.*test.*
。识别阈值:只有内容匹配率超过识别阈值,该规则才会被认为是有效识别,进入该字段的识别结果中比较。
按字段名称扫描:根据元数据中的字段名称进行扫描判断。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test的内容,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
。包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。
按字段描述扫描:根据元数据中的字段描述进行扫描判断。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test的内容,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
。包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。
按数据类型扫描:根据元数据中的字段的数据类型进行扫描判断。扫描条件支持等于,可选择的数据类型包括tinyint、smallint、mediumint、int、bigint、decimal、bit、date、datetime、timestamp、varchar、text、json。
说明至少配置一条规则。如需添加规则,请单击+添加规则按钮。
最多配置5条规则,且最多配置2层关系。
过滤条件之间的关系可配置为且、或。
单击确定,完成识别特征的添加。
查看及管理识别特征
识别特征添加后,您可以在识别特征页面查看配置的信息及进行编辑、删除等操作。
区域 | 描述 |
①筛选与搜索区 | 您可以根据识别特征的名称进行模糊搜索,也可以根据识别特征来源进行精确筛选。 |
②识别特征列表 | 为您展示识别特征的名称、类型、最近更新人、最近更新时间信息。同时,您可以对自定义的识别特征执行查看、编辑、克隆、删除操作;系统内置识别特征执行查看、克隆操作。
|
后续步骤
您可以在创建数据标准时,指定标准相关的识别特征,如:身份证号标准,关联身份证号特征。配置详情请参见新建及管理数据标准。
您可以在创建映射规则时,映射方式可以选择按识别特征智能匹配,则规则运行时会基于圈选的数据标准已配置的识别特征与圈选的资产对象进行特征匹配,从而推荐合适的映射关系。配置详情请参见新建和管理落标映射规则。