创建、配置及手动触发识别规则
识别规则用于识别Dataphin内的敏感数据。您可以对安全要求比较高的业务数据配置识别规则,帮助您及时识别敏感数据。识别规则创建完成后默认每天凌晨进行调度扫描数据,您也可以自定义识别规则的调度周期或手动触发识别规则立即扫描数据。本文为您介绍如何创建及配置识别规则。
背景信息
创建识别规则的过程中您可以通过业务板块、项目,筛选需要扫描的数据表,并配置需要识别的数据分类,具体操作请参见创建识别规则。
已创建的识别规则默认每天凌晨会定时进行调度扫描数据,您也可以根据业务情况调整识别规则的调度周期,具体操作请参见配置识别规则的调度周期。
如果需要立即开始扫描数据,则您可以手动触发识别规则开始扫描数据,具体操作请参见手动触发识别规则。
前提条件
在执行操作前,请确认您已满足如下条件:
已完成数据分类的创建。具体操作,请参见新建数据分类。
使用限制
支持安全管理员创建、编辑、配置及手动触发识别规则。
MaxCompute的表会默认使用MaxCompute Tunnel加速,提高识别速度、降低识别成本。如有不支持Tunnel的场景,则会使用普通SQL进行安全识别。
创建识别规则
在Dataphin首页,单击顶部菜单栏资产。
按照下图指引,进入新建识别规则对话框。
在新建识别规则对话框,配置参数。
参数
描述
识别规则名称
规则名称的命名规则如下:
包含汉字、字母、数字、下划线(_)。
不能超过12个字符。
识别规则说明
自定义识别规则备注信息。
所属分类层级
选择数据分类的层级,如需创建目录,请参见。
分类名称
选择该层级下当前可用的数据分类,如需创建,请参见新建数据分级。
扫描范围
识别方式支持且、或两种方式。
识别类型包括数据板块、项目和数据表。
识别条件支持全部、属于、不属于、包含、不包含、正则(大小兼容)、正则表达式。
全部:即选择了当前Dataphin内的全部范围。
属于/不属于:选择多个具体的资源。
包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。
正则(大小兼容):在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
。
说明扫描范围的规则不超过5条,关系不超过2层。
数据板块和项目选择不超过100个对象。
完成识别规则创建后,在识别规则列表中生成一条新的识别规则,且识别规则的生效状态默认是打开的,次日凌晨开始每天定时自动扫描数据。您也可以根据业务情况进行调整识别规则的调度周期或手动触发识别规则立即开始扫描数据,具体操作请参见配置识别规则的调度周期或手动触发识别规则。
配置完成后单击确定。
识别规则列表
识别创建完成后,您可以在识别规则列表对规则进行查看、编辑、删除、转交、设置脱敏等操作。
序号 | 描述 |
①搜索和筛选区 | 您可以根据识别规则名称的关键字进行快捷搜索,也可以根据数据分类、负责人、仅看我的条件进行精确筛选。 |
②规则介绍区 | 您可以查看规则识别、优先级、生效日期及数据抽样四种规则的介绍。 |
③列表区 | 为您展示规则名称、数据分类、优先级、负责人、更新时间、自动识别规则详细信息,同时您可以在操作列对识别规则进行重置、查看详情、编辑、复制、转交、删除操作。
|
④批量操作区 | 您可以批量选择任务,进行删除、转交、测试操作。
|
配置识别规则的调度周期
在识别规则页面,单击页面右上方的调度任务配置。
在识别任务调度配置对话框,配置参数。
参数
描述
调度任务周期
识别规则默认每天调度一次,可以根据业务情况进行调整调度周期。调度周期调长可以优化性能,但会有敏感数据识别滞后的风险。支持选择日、周和 月,详细说明如下:
日调度:识别规则每天自动运行一次。您可以单击
图标后指定运行的时间点。
周调度:识别规则在每周的特定几天,特定时间点自动运行。您可以根据业务需求选择具体的星期后,单击
图标指定运行的时间点。
月调度:识别规则在每月的特定几天,特定时间点自动运行。您可以根据业务需求选择具体的日期后,单击
图标指定运行的时间点。
调度任务并行度
用于设定识别规则在后台会同时对多少个数据表进行扫描,默认配置为16,您可以根据业务需求进行调整,配置的并行度为正整数且范围为1~100。
增大并行度会加快扫描进度,但会占用更多的运行资源,请您合理评估。
调度黑名单
某个特殊的时间段内,为了保障线上任务的运行,您可以打开调度黑名单开关并配置调度黑名单的时间段。在调度黑名单的时间段内,Dataphin内所有的识别规则不进行扫描数据。
实时扫描
默认关闭,开启实时扫描后,若新建表时或者表的元数据变更时(如创建/删除表、增加/删除字段),则会对表执行一次扫描,按照扫描结果进行打标。
实时扫描开启后,能更快的发现敏感数据并对其进行保护,但会消耗部分计算资源,请您合理评估。
运行项目
安全识别任务会占用一定的计算资源,正常情况选择数据所在项目即可。
对于部分项目是按量付费、部分项目是包年包月付费的情况下,推荐选择包年包月项目执行识别任务,以减少识别任务计算费用;对于有专门分配的项目资源/队列的情况下,也可以指定项目执行,减少对正常业务项目的干扰。
选择项目的计算源需要有访问其他项目的权限,否则可能会出现无法扫描的情况。
单击确定,完成识别规则调度周期的配置。
Dataphin所有的识别规则均会按照已配置的调度周期进行调度扫描数据。
手动触发识别规则
在识别规则页面,单击页面右上方的手动规则扫描。
在手动规则扫描对话框,选择扫描数据的范围。
您可以通过选择全库扫描、项目扫描或表扫描的方式,选择需要立即执行的识别规则:
全库扫描:适用于需要立即执行Dataphin内所有识别规则进行扫描数据的场景。
项目扫描:选择需要扫描的项目,适用于需要立即执行特定项目下的所有识别规则进行扫描数据的场景。
表扫描:选择该项目下需要扫描的数据表,不超过10张数据表,适用于需要立即执行特定项目下的数据表所有识别规则进行扫描数据的场景。
单击确定,即可触发已选择的识别规则进行扫描数据。
您可前往识别任务查看,根据您选择的扫描数据的大小,扫描数据进程不同,请您耐心等待。
后续步骤
查看识别规则扫描到的敏感数据,具体操作请参见查看识别记录。