识别规则创建完成后,您可根据业务情况进行调整识别规则的扫描方式,支持定时扫描、手动扫描、实时扫描,此外,您也可配置基于血缘关系自动继承上游的分类分级,通过继承任务生成识别结果。本文为您介绍如何配置识别规则及识别结果的生成方式。
前提条件
已创建识别规则。如需创建,请参见新建及管理识别规则。
权限说明
安全管理员支持创建及管理识别规则、修改规则运行配置及开启自动继承配置。
识别规则运行配置
在Dataphin首页,在顶部菜单栏选择治理 > 数据安全。
在左侧导航栏选择数据识别 > 识别规则,在识别规则页面,单击新建识别规则后的下拉箭头,选择规则运行配置。
在规则运行配置对话框中,配置参数。
参数
描述
扫描配置
调度周期
识别规则默认每天调度一次,可根据业务情况进行调整调度周期。调大周期可以减少资源消耗,但会有敏感数据识别滞后的风险。支持选择日、周和月调度周期。
实时扫描
默认关闭。开启后,若新建表、表结构变更(增加字段、字段重命名、表重命名)或者表数据变更(通过Dataphin执行insert、delete、update)时,则会对表执行一次扫描,并针对敏感字段进行打标。
说明实时扫描开启后,能更及时的发现敏感数据并对其进行保护,但可能会增加计算资源的消耗,请您合理评估。
并发运行数
用于控制全局同时运行的识别任务数量,包括标准模块按照识别特征智能映射的落标映射规则任务、安全模块的定时扫描、手动扫描、实时扫描、血缘更新触发的自动继承扫描任务,默认为16,支持配置1~100之间的正整数。
说明增大并行度可加快扫描进度,但会占用更多的集群计算资源,为保证系统稳定性,请您根据业务需求进行合理配置。
扫描禁用期
开启后,需要配置开始时间和结束时间。在指定的时间段内,全局特征识别任务将不会运行,避免占用较多的计算资源影响生产环境任务的正常运行,以保障线上数据任务。
采样配置
采样存储
为了降低每次识别任务的成本,提高识别准确率,支持对采样数据进行加密存储。需要注意的是,节约计算资源的同时会消耗部分存储资源。
开启后会存储数据采样,后续识别任务只会扫描采样数据。采样数据的更新频率可以根据业务需求设置。开启后需配置以下参数:
采样更新:更新采样存储数据,提高长期识别的准确率。
不更新:仅采样存储一次,如果采样成功,则后续不会主动更新数据。
有新数据则更新:识别时,若数据表有新数据(以DDL/DML时间判断)则更新采样数据。
每7天更新一次:识别时,如果距离上次采样成功超过7天,则重新采样。
每30天更新一次:识别时,如果距离上次采样成功超过30天,则重新采样。
空值补偿:当采样数据中单个字段全是空值时,将无法按照内容识别。
开启空值补偿后,如果抽样的字段全是空值,会再次进行一次非空采样,采样成功进入识别流程,采样失败则该字段不进行识别。
开启后会提升识别的准确率,但可能也会导致识别成本上升,请根据业务需求判断是否需要开启。
资源配置
运行项目
识别任务会占用一定的计算资源,正常情况下选择数据所在的项目即可。
对于部分项目是按量付费、部分项目是包年包月付费的情况下,推荐选择包年包月项目执行识别任务,以减少识别任务计算费用;对于有专门分配的项目资源/队列的情况下,也可以指定项目执行,减少对正常业务项目的干扰。
选择项目的计算源需要有访问其他项目的权限,否则可能会出现无法扫描的情况。
说明当计算引擎为Impala时,扫描的数据表为Kudu表,需要选择开启Impala任务的项目,方可使用Impala SQL扫描成功。
说明此处规则运行配置的并发运行数、扫描禁用期、采样配置、资源配置和数据标准模块的特征扫描配置共用,任何一个配置修改将同步影响另外一处的配置。
全局特征识别任务包括标准和安全模块的特征识别任务。
数据标准:按照识别特征智能匹配的落标映射规则任务(包括手动、定时执行的规则)。
资产安全:包括定时扫描、手动扫描、实时扫描以及基于血缘继承的识别任务。
单击确定,完成识别规则调度周期的配置。
自动继承配置
在识别规则页面,单击自动继承配置按钮。
在基于血缘自动继承配置对话框中,配置参数。
参数
描述
自动继承
默认关闭,开启后配置血缘自动继承的场景及规则。
说明自动继承开启后,仅基于直接血缘继承。下游会根据字段血缘关系自动继承直接上游字段的敏感等级,同时根据默认脱敏规则的配置,以实现对新增数据的自动保护,减少手动配置成本,也能更大程度上保证关联数据识别结果一致性和相关性。
继承规则
当继承结果仅有一个时,支持选择继承分类+分级、仅继承分级,不继承分类。
继承分类+分级:可实现对该字段更精准的命中脱敏规则。
仅继承分级,不继承分类:继承直接上游字段的数据分级,后续可在识别记录中手动指定数据分类。
当继承结果仅有多个时,支持选择仅继承最高分级,不继承分类、继承最高分级+最高分级来源字段对应的分类。
仅继承最高分级,不继承分类:继承直接上游字段的最高数据分级,后续可在识别记录中手动指定数据分类。
继承最高分级+最高分级来源字段对应的分类:若多个字段敏感等级相同但分类不同,则按照分类优先级>识别记录的更新时间>分类修改时间决定分类结果。
触发场景
支持选择识别规则运行、血缘关系更新。
识别规则运行:针对扫描对象的直接下游,根据本次扫描对象的识别结果计算继承结果。
说明每次识别规则运行时,针对规则圈选的对象,按照字段血缘关系查询下游字段并根据规则配置生成自动继承结果。
如果上游字段不同,但是继承结果对应的分类分级相同,则会更新继承结果的来源字段;如果生成新的分类分级继承结果,则会新增一条对应的记录。
血缘关系更新:针对每一条更新血缘的输出字段,根据输入字段计算继承结果。
说明每次任务提交至开发环境或发布至生产环境时,根据输出表查询输入表并获取输入字段的血缘关系,按照规则配置生成自动继承结果。
如果上游字段不同,但是继承结果对应的分类分级相同,则会更新继承结果的来源字段;如果生成新的分类分级继承结果,则会新增一条对应的记录。
需至少选择一种继承场景。
说明针对未指定分类的识别结果,您可以根据继承来源手动指定适合的识别结果。建议您配置默认脱敏策略,保证自动继承分级的结果数据可以命中脱敏算法,更好保障数据安全。
判断最终生效的识别结果优先级从高到低为:手动执行>自动识别>自动血缘继承。
单击确定,完成基于血缘自动继承配置。