识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别特征。本文为您介绍如何创建及管理识别特征。
前提条件
开通X-数据标准,才能使用智能生成识别特征功能。
权限说明
超级管理员、数据标准管理员、安全管理员和具有识别特征-管理权限的自定义全局角色支持新建及管理识别特征。
识别特征介绍
识别特征可以同时用于智能推荐数据标准映射关系与字段的分类分级打标结果。特征扫描配置将同时影响标准模块的落标映射规则与安全模块的识别规则运行,请结合两个模块的使用场景合理配置,以减少语义冲突、资源浪费等问题的产生。
识别特征扫描配置
在Dataphin首页的顶部菜单栏,选择治理 > 数据标准。
在左侧导航栏选择通用配置 > 识别特征,在识别特征页面,单击特征扫描配置。
在特征扫描配置对话框中,配置参数。
参数
描述
扫描配置
并发运行数
用于控制全局同时运行的识别任务数量,包括标准模块按照识别特征智能映射的落标映射规则任务、安全模块的定时扫描、手动扫描、实时扫描、血缘更新触发的自动继承扫描任务,默认为16,支持配置1~100之间的正整数。
说明仅当自动触发采样查询未开启时生效。
增大并行度可加快扫描进度,但会占用更多的集群计算资源,为保证系统稳定性,请您根据业务需求进行合理配置。
扫描禁用期
开启后,配置扫描禁用期的开始时间和结束时间。在指定的时间段内,全局特征识别任务将不会运行,避免占用较多的计算资源影响生产环境的正常运行,以保障线上数据任务。
全局特征识别任务包括标准和安全模块的特征识别任务。
数据标准:根据识别特征智能匹配的落标映射规则任务(包括手动、定时)以及手动触发单个标准。
资产安全:包括定时扫描、手动扫描、实时扫描以及基于血缘继承的识别任务。
扫描范围
选择识别规则的扫描范围,默认选中过滤视图,支持切换为包含视图。
说明批量导入和手动添加识别结果不受此处配置影响,可直接添加视图对象的识别结果。
扫描范围选择包含视图,基于规则自动扫描和基于血缘自动继承两种扫描方式将对视图对象进行分类分级打标。
视图对象包括物理视图、逻辑视图、数据源视图、数据源物化视图和物化视图。
采样配置
自动触发采样查询
当治理 > 元数据 > 采样配置开启了数据采样且触发场景为安全识别规则运行/标准落标映射规则执行时为开启状态,否则为关闭。
开启后,自动数据采样根据元数据-采样配置进行数据采样。识别规则执行时,系统会先检测数据范围中有无样例值决定是否需要数据采样,再根据采样配置的自动采样更新策略进行自动采样。
说明当安全识别规则涉及按内容识别、标准落标映射配置了按识别特征智能映射时,建议开启,避免数据时效性落后或使用临时数据查询造成额外资源消耗。
资源配置
运行项目
当没有可用的采样数据,需进行临时数据查询以进行内容识别时,需为临时数据查询任务选择执行的计算资源,支持数据所在项目和指定项目。
数据所在项目:在已圈选数据资产的所属项目中执行。
指定项目:根据已圈选数据资产所属环境,在对应的项目中执行(开发表使用开发项目计算资源,生产表使用生产项目计算资源)。
说明临时数据查询任务会占用一定的计算资源,正常情况下选择数据所在的项目即可。
如果您希望减少对数据所在项目的资源压力和查询费用(如选择单独的包年包月项目),避免对正常业务项目的干扰,也可以分配专门的项目资源/队列用于临时数据查询。
请确保选中项目中计算源配置的账号有相关数据表的读取权限。
当计算引擎为E-MapReduce 3.x、E-MapReduce 5.x、CDH 5.x、CDH 6.x、FusionInsight 8.x、亚信DP 5.3、Cloudera Data Platform 7.x、Lindorm(计算引擎)、Amazon EMR、星环TDH且数据表为湖表时,项目关联的计算源需开启Spark任务,才能进行数据扫描;当数据表的存储格式为Kudu时,项目关联的计算源需开启Impala任务,才能进行数据扫描。
单击确定,完成识别特征扫描配置。
新建识别特征
在识别特征页面,单击新建特征按钮。
在添加特征对话框中,配置参数。配置信息与数据安全 > 识别特征的一致,详情请参见新建识别特征。
单击确定,完成识别特征的添加。
管理识别特征
在识别特征页面,为您展示识别特征的名称、描述、类型、最近更新人以及最近更新时间信息。
(可选)您可以根据识别特征的名称搜索目标识别特征,也可以根据识别特征的类型筛选目标识别特征。
您可以对目标识别特征执行如下操作。支持的操作与数据安全 > 识别特征的一致,详情请参见管理识别特征。
后续步骤
您可以在创建数据标准时,指定标准相关的识别特征,如:身份证号标准,关联身份证号特征。配置详情请参见新建及管理数据标准。
您可以在创建映射规则时选择映射方式-按识别特征智能匹配,则规则运行时会基于圈选的数据标准已配置的识别特征与圈选的资产对象进行特征匹配,从而推荐合适的映射关系。配置详情请参见新建和管理落标映射规则。
智能生成
Dataphin支持基于阿里云百炼平台、X-数据标准,根据输入的特征名称,智能生成可表达特征数据内容的正则表达式和可能的字段名称,快速推荐特征表达式及解释,降低配置成本并提升标准映射准确度。
您需要先开启X-数据标准智能应用,才能使用智能识别特征功能。
在Dataphin首页的顶部菜单栏,选择治理 > 数据标准。
在左侧导航栏选择通用配置 > 识别特征,在识别特征页面,单击新建特征按钮。
在添加特征对话框中,填写名称后,再单击智能生成。智能生成的配置信息与数据安全 > 识别特征页面的一致,详情请参见智能生成。