创建、配置及手动触发识别规则

更新时间: 2023-08-10 09:51:53

识别规则用于识别Dataphin内的敏感数据。您可以对安全要求比较高的业务数据配置识别规则,帮助您及时识别敏感数据。识别规则创建完成后默认每天凌晨进行调度扫描数据,您也可以自定义识别规则的调度周期或手动触发识别规则立即扫描数据。本文为您介绍如何创建及配置识别规则。

背景信息

  • 创建识别规则的过程中您可以通过业务板块、项目,筛选需要扫描的数据表,并配置需要识别的数据分类,具体操作请参见创建识别规则

  • 已创建的识别规则默认每天凌晨会定时进行调度扫描数据,您也可以根据业务情况调整识别规则的调度周期,具体操作请参见配置识别规则的调度周期

  • 如果需要立即开始扫描数据,则您可以手动触发识别规则开始扫描数据,具体操作请参见手动触发识别规则

前提条件

在执行操作前,请确认您已满足如下条件:

已完成数据分类的创建。具体操作,请参见新建数据分类

使用限制

支持安全管理员创建、编辑、配置及手动触发识别规则。

MaxCompute的表会默认使用MaxCompute Tunnel加速,提高识别速度、降低识别成本。如有不支持Tunnel的场景,则会使用普通SQL进行安全识别。

创建识别规则

  1. 在Dataphin首页,单击顶部菜单栏资产

  2. 按照下图指引,进入新建识别规则对话框。

    image..png
  3. 新建识别规则对话框,配置参数。

    image.png

    参数

    描述

    识别规则名称

    规则名称的命名规则如下:

    • 包含汉字、字母、数字、下划线(_)。

    • 不能超过12个字符。

    识别规则说明

    自定义识别规则备注信息。

    所属分类层级

    选择数据分类的层级,如需创建目录,请参见。

    分类名称

    选择该层级下当前可用的数据分类,如需创建,请参见新建数据分级

    扫描范围

    • 识别方式支持两种方式。

    • 识别类型包括数据板块项目数据表

    • 识别条件支持全部属于不属于包含不包含正则(大小兼容)正则表达式

      • 全部:即选择了当前Dataphin内的全部范围。

      • 属于/不属于:选择多个具体的资源。

      • 包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。

      • 正则(大小兼容):在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为.*test.*,同时进行扫描结果的大小写兼容处理。

      • 正则表达式:在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为.*test.*

    说明
    • 扫描范围的规则不超过5条,关系不超过2层。

    • 数据板块和项目选择不超过100个对象。

    完成识别规则创建后,在识别规则列表中生成一条新的识别规则,且识别规则的生效状态默认是打开的,次日凌晨开始每天定时自动扫描数据。image..png您也可以根据业务情况进行调整识别规则的调度周期或手动触发识别规则立即开始扫描数据,具体操作请参见配置识别规则的调度周期手动触发识别规则
  4. 配置完成后单击确定

识别规则列表

识别创建完成后,您可以在识别规则列表对规则进行查看、编辑、删除、转交、设置脱敏等操作。image..png

序号

描述

搜索和筛选区

您可以根据识别规则名称的关键字进行快捷搜索,也可以根据数据分类、负责人、仅看我的条件进行精确筛选。

规则介绍区

您可以查看规则识别优先级生效日期数据抽样四种规则的介绍。

列表区

为您展示规则名称数据分类优先级负责人更新时间自动识别规则详细信息,同时您可以在操作列对识别规则进行重置查看详情编辑复制转交删除操作。

  • 重置:对识别范围内的数据执行一次识别,同时会更新所有当前打标为该规则的记录。

    说明

    可以重置历史记录。

  • 查看详情:可以查看识别规则的配置详情。

  • 编辑:可以对识别规则进行编辑。

  • 复制:可以快速复制识别规则,相当于克隆。

  • 转交:在转交识别规则对话框,选择需转交的对象后,单击确定。规则仅支持转交给安全管理员。

    image..png
  • 删除:删除规则后,将会对应用本规则的所有识别数据的分类分级打标进行删除,删除后不可撤销。

    说明

    相关打标删除操作,次日生效。

批量操作区

您可以批量选择任务,进行删除转交测试操作。

  • 删除:批量删除规则后,将会对应用本规则的所有识别数据的分类分级打标进行删除,删除后不可撤销。

    说明

    相关打标删除操作,次日生效。

  • 转交:在转交识别规则对话框,选择需转交的对象后,单击确定。规则仅支持转交给安全管理员。

    image..png
  • 测试:您可选择需测试的项目或数据表,测试将会对抽取的样例数据进行分类分级及规则打标,最多选择10个项目或10张表。

    image

    测试完成后,您可以单击查看测试结果查看结果详情。

    说明
    • 测试对抽取的样例数据仅作结果展示,不实际打标。

    • 测试运行也会进行数据扫描和计算,将会消耗计算资源,建议精确设置测试范围;基于所选的范围的规则个数和复杂度,执行进度会有所不同,请耐心等待。

    • 测试仅用于判断单条识别规则是否能识别出敏感数据,实际执行会对多个符合条件的规则进行判断并按照优先级最终确定一个识别规则,因此测试打标结果可能和实际的规则打标结果不一致。

配置识别规则的调度周期

  1. 识别规则页面,单击页面右上方的调度任务配置

    image..png
  2. 识别任务调度配置对话框,配置参数。

    image..png

    参数

    描述

    调度任务周期

    识别规则默认每天调度一次,可以根据业务情况进行调整调度周期。调度周期调长可以优化性能,但会有敏感数据识别滞后的风险。支持选择,详细说明如下:

    • 调度:识别规则每天自动运行一次。您可以单击图标后指定运行的时间点。

    • 调度:识别规则在每周的特定几天,特定时间点自动运行。您可以根据业务需求选择具体的星期后,单击图标指定运行的时间点。

    • 调度:识别规则在每月的特定几天,特定时间点自动运行。您可以根据业务需求选择具体的日期后,单击图标指定运行的时间点。

    调度任务并行度

    用于设定识别规则在后台会同时对多少个数据表进行扫描,默认配置为16,您可以根据业务需求进行调整,配置的并行度为正整数且范围为1~100。

    增大并行度会加快扫描进度,但会占用更多的运行资源,请您合理评估。

    调度黑名单

    某个特殊的时间段内,为了保障线上任务的运行,您可以打开调度黑名单开关并配置调度黑名单的时间段。在调度黑名单的时间段内,Dataphin内所有的识别规则不进行扫描数据。

    实时扫描

    默认关闭开启实时扫描后,若新建表时或者表的元数据变更时(如创建/删除表、增加/删除字段),则会对表执行一次扫描,按照扫描结果进行打标。

    实时扫描开启后,能更快的发现敏感数据并对其进行保护,但会消耗部分计算资源,请您合理评估。

    运行项目

    • 安全识别任务会占用一定的计算资源,正常情况选择数据所在项目即可。

    • 对于部分项目是按量付费、部分项目是包年包月付费的情况下,推荐选择包年包月项目执行识别任务,以减少识别任务计算费用;对于有专门分配的项目资源/队列的情况下,也可以指定项目执行,减少对正常业务项目的干扰。

    • 选择项目的计算源需要有访问其他项目的权限,否则可能会出现无法扫描的情况。

  3. 单击确定,完成识别规则调度周期的配置。

    Dataphin所有的识别规则均会按照已配置的调度周期进行调度扫描数据。

手动触发识别规则

  1. 识别规则页面,单击页面右上方的手动规则扫描

    image..png
  2. 手动规则扫描对话框,选择扫描数据的范围。

    image您可以通过选择全库扫描项目扫描表扫描的方式,选择需要立即执行的识别规则:

    • 全库扫描:适用于需要立即执行Dataphin内所有识别规则进行扫描数据的场景。

    • 项目扫描:选择需要扫描的项目,适用于需要立即执行特定项目下的所有识别规则进行扫描数据的场景。

    • 表扫描:选择该项目下需要扫描的数据表,不超过10张数据表,适用于需要立即执行特定项目下的数据表所有识别规则进行扫描数据的场景。

  3. 单击确定,即可触发已选择的识别规则进行扫描数据。

    您可前往识别任务查看,根据您选择的扫描数据的大小,扫描数据进程不同,请您耐心等待。

后续步骤

查看识别规则扫描到的敏感数据,具体操作请参见查看识别记录

阿里云首页 智能数据建设与治理 Dataphin 相关技术圈