分类分级扫描识别敏感数据的原理-数据管理 DMS-阿里云

DMS分类分级扫描能够对数据库中的敏感数据进行检测，并自动为符合识别规则的字段打上相应的分类分级标签，还可以保护高敏感等级的字段，并将敏感字段直观地展示在识别结果中。本文介绍DMS敏感数据保护分类分级扫描功能的原理。

原理介绍

DMS分类分级扫描由底层识别模型扫描和上层分类分级扫描组成。先使用识别模型扫描表中字段和数据，再使用分类分级扫描表中字段。其中，识别模型扫描可以识别数据信息类型，例如姓名、时间等。分类分级扫描则基于识别模型扫描的结果，通过实例关联的分类分级模板对字段进行业务归类，同时自动设置字段的安全级别和脱敏算法。

分类分级扫描基于识别模型扫描，但两者相互独立，互不干扰。

识别模型扫描

识别模型扫描支持如下两种识别方式：

数据内容识别（正则匹配）

通过识别模型匹配字段内容来对字段进行归类。例如识别模型名称为身份证，若字段数据符合身份证校验算法，则将该字段标记为身份证类型。

在进行数据内容识别时，DMS会随机采样部分数据进行识别，以保证识别效率；当采样数据中符合识别模型要求的数据量大于特定阈值时，系统可以确定该字段为身份证类型。

元数据识别

通过识别模型匹配字段名称，对字段进行归类。例如，当DMS内置的身份证识别模型识别到表中字段名称为id_card时，会将该字段标记为身份证类型。

识别结果

每个字段可对应多个识别结果。例如识别模型手机号与11位数字均可识别手机号内容。对于单个字段，DMS最多保存3个识别结果。

说明

DMS内置部分识别模型，用户也可以自定义识别模型。自定义识别模型仅支持数据内容识别。
识别模型有禁用和启用（默认）两种状态。仅已启用的识别模型，会被系统逐一应用到字段进行识别。