配置识别规则的扫描方式与自动继承-智能数据建设与治理Dataphin-阿里云-智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

识别规则创建完成后，您可根据业务情况进行调整识别规则的扫描方式，支持定时扫描、手动扫描、实时扫描，此外，您也可配置基于血缘关系自动继承上游的分类分级，通过继承任务生成识别结果。本文为您介绍如何配置识别规则及识别结果的生成方式。

前提条件

已创建识别规则。如需创建，请参见新建及管理识别规则。

使用限制

识别规则自动扫描默认不自动扫描视图对象，您可以在规则运行配置中开启扫描视图；也可以手动添加或批量导入视图的识别结果。

权限说明

安全管理员支持创建及管理识别规则、修改规则运行配置及开启自动继承配置。

识别规则运行配置

在Dataphin首页，在顶部菜单栏选择治理 > 数据安全。
在左侧导航栏选择数据识别 > 识别规则，在识别规则页面，单击新建识别规则后的下拉箭头，选择规则运行配置。

在规则运行配置对话框中，配置参数。

参数		描述
扫描配置	调度周期	识别规则默认每天调度一次，可根据业务情况进行调整调度周期。调大周期可以减少资源消耗，但会有敏感数据识别滞后的风险。支持选择日、周和月调度周期。当系统时区（即用户中心的时区）与调度时区（即管理中心 > 系统设置 > 基础设置中所配置的时区）不一致时，规则将根据系统时区进行执行。
	计算源表实时扫描	默认关闭。开启后，若新建表、表结构变更（增加字段、字段重命名、表重命名）或者表数据变更（通过Dataphin执行insert、delete、update）时，则会对表执行一次扫描，并针对敏感字段进行打标。说明实时扫描开启后，能更及时的发现敏感数据并对其进行保护，但可能会增加计算资源的消耗，请您合理评估。数据源表不支持实时扫描。
	扫描范围	选择识别规则的扫描范围，默认选中过滤视图，支持切换为包含视图。说明批量导入和手动添加识别结果不受此处配置影响，可直接添加视图对象的识别结果。扫描范围选择包含视图，基于规则自动扫描和基于血缘自动继承两种扫描方式将对视图对象进行分类分级打标。视图对象包括物理视图、逻辑视图、数据源视图、数据源物化视图、物化视图。
	并发运行数	用于控制全局同时运行的识别任务数量，包括标准模块按照识别特征智能映射的落标映射规则任务、安全模块的定时扫描、手动扫描、实时扫描、血缘更新触发的自动继承扫描任务，默认为16，支持配置1~100之间的正整数。说明仅当自动触发采样查询未开启时生效。增大并行度可加快扫描进度，但会占用更多的集群计算资源，为保证系统稳定性，请您根据业务需求进行合理配置。
采样配置说明针对自动采样、未开启自动采样但需按内容识别时触发的临时采样查询均生效。	自动采样	当治理 > 元数据 > 采样配置开启了数据采样且触发场景为安全识别规则运行/标准落标映射规则执行时为开启状态，否则为关闭。开启后，自动数据采样根据元数据-采样配置进行数据采样。识别规则执行时，系统会先检测数据范围中有无样例值决定是否需要数据采样，再根据采样配置的自动采样更新策略进行自动采样。说明当安全识别规则涉及按内容识别、标准落标映射配置了按识别特征智能映射时，建议开启，避免数据时效性落后或使用临时数据查询造成额外资源消耗。当自动采样开启时，数据源表自动触发数据采样任务。
	计算源表查询空间	当没有可用的采样数据，需进行临时数据查询以进行内容识别时，需为临时数据查询任务选择执行的计算资源，您可以在治理 > 元数据 > 采样配置 > 计算源中修改配置。说明临时数据查询任务会占用一定的计算资源，正常情况下选择数据表所在的项目即可。如果您希望减少对数据所在项目的资源压力和查询费用（如选择单独的包年包月项目），避免对正常业务项目的干扰，也可以分配专门的项目资源/队列用于临时数据查询。请确保选中项目中计算源配置的账号有相关数据表的读取权限。数据源表的临时查询任务仅可在所属数据源中运行。当计算引擎E-MapReduce 3.x、E-MapReduce 5.x、CDH 5.x、CDH 6.x、FusionInsight 8.x、亚信DP 5.3、Cloudera Data Platform 7.x、Lindorm（计算引擎）、Amazon EMR、星环TDH且数据表为湖表时，项目关联的计算源需开启Spark任务，才能进行数据扫描；当数据表的存储格式为Kudu时，项目关联的计算源需开启Impala任务，才能进行数据扫描。
	扫描禁用期	在指定的时间段内，自动触发的数据采样查询任务不会发起，将直接置为失败，避免占用较多的计算资源影响生产环境任务的正常运行，以保障线上数据任务的稳定性。您可以在治理 > 元数据 > 采样配置 > 计算源中修改配置。

说明

此处规则运行配置的并发运行数、扫描禁用期、采样配置、资源配置和数据标准模块的特征扫描配置共用，任何一个配置修改将同步影响另外一处的配置。
全局特征识别任务包括标准和安全模块的特征识别任务。
- 数据标准：按照识别特征智能匹配的落标映射规则任务（包括手动、定时执行的规则）。
- 资产安全：包括定时扫描、手动扫描、实时扫描以及基于血缘继承的识别任务。

单击确定，完成识别规则调度周期的配置。

自动继承配置

在识别规则页面，单击自动继承配置按钮。

在基于血缘自动继承配置对话框中，配置参数。

参数	描述
自动继承	默认关闭，开启后配置血缘自动继承的场景及规则。说明自动继承开启后，仅基于直接血缘继承。下游会根据字段血缘关系自动继承直接上游字段的敏感等级，同时根据默认脱敏规则的配置，以实现对新增数据的自动保护，减少手动配置成本，也能更大程度上保证关联数据识别结果一致性和相关性。
继承规则	当继承结果仅有一个时，支持选择继承分类+分级、仅继承分级，不继承分类。继承分类+分级：可实现对该字段更精准的命中脱敏规则。仅继承分级，不继承分类：继承直接上游字段的数据分级，后续可在识别记录中手动指定数据分类。当继承结果仅有多个时，支持选择仅继承最高分级，不继承分类、继承最高分级+最高分级来源字段对应的分类。仅继承最高分级，不继承分类：继承直接上游字段的最高数据分级，后续可在识别记录中手动指定数据分类。继承最高分级+最高分级来源字段对应的分类：若多个字段敏感等级相同但分类不同，则按照分类优先级>识别记录的更新时间>分类修改时间决定分类结果。
触发场景	支持选择识别规则运行、血缘关系更新。识别规则运行：针对扫描对象的直接下游，根据本次扫描对象的识别结果计算继承结果。说明每次识别规则运行时，针对规则圈选的对象，按照字段血缘关系查询下游字段并根据规则配置生成自动继承结果。如果上游字段不同，但是继承结果对应的分类分级相同，则会更新继承结果的来源字段；如果生成新的分类分级继承结果，则会新增一条对应的记录。血缘关系更新：针对每一条更新血缘的输出字段，根据输入字段计算继承结果。说明每次任务提交至开发环境或发布至生产环境时，根据输出表查询输入表并获取输入字段的血缘关系，按照规则配置生成自动继承结果。如果上游字段不同，但是继承结果对应的分类分级相同，则会更新继承结果的来源字段；如果生成新的分类分级继承结果，则会新增一条对应的记录。需至少选择一种继承场景。

说明

针对未指定分类的识别结果，您可以根据继承来源手动指定适合的识别结果。建议您配置默认脱敏策略，保证自动继承分级的结果数据可以命中脱敏算法，更好保障数据安全。
判断最终生效的识别结果优先级从高到低为：手动执行>自动识别>自动血缘继承。

单击确定，完成基于血缘自动继承配置。