数据保护伞入门教程之配置敏感数据脱敏与风险识别-大数据开发治理平台 DataWorks-阿里云

数据保护伞是一款数据安全管理产品，提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等功能，帮助您快速梳理敏感数据并进行安全管控，保障数据安全。本文示例使用内置规则对xc_dpe_e2_dev项目的phone数据脱敏，并设置导出风险审计，为您演示数据保护伞的基本使用流程。

进入数据保护伞

登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据治理 > 安全中心，在右侧页面中单击进入安全中心。
单击左侧导航栏的数据使用安全 > 敏感数据管理，单击立即体验，进入数据保护伞。
说明
- 若阿里云主账号已授权，则直接进入数据保护伞的首页。
- 若阿里云主账号未授权，则进入数据保护伞的授权页面。授权后才可使用保护伞的相关功能。

操作流程

步骤一：配置数据分类分级
用于对您当前的数据按照数据价值、内容敏感程度、影响和分发范围进行敏感级别划分。不同敏感级别的数据管控原则和数据开发要求存在差异。
步骤二：配置敏感数据识别规则
根据数据的来源、用途，定义数据分类并配置敏感字段类型，识别当前工作空间中的敏感数据。DataWorks提供了内置数据分类及识别规则，您也可根据需要自定义数据分类及敏感数据识别规则。
步骤三：配置数据脱敏规则
用于对识别到的敏感数据配置脱敏规则。根据业务管控要求，不同敏感级别的数据脱敏管控存在差异。
步骤四：配置风险识别规则
根据智能化的分析技术，通过风险识别规则，主动发现风险操作并预警。帮助您进行更加全面的风险管理，有效识别并规避风险。
步骤五：查看数据
完成上述配置后，您可在数据保护伞对应功能模块查看数据。

步骤一：配置数据分类分级

您可对当前的数据资产按照数据价值、内容敏感程度、影响和分发范围进行敏感级别划分，不同敏感级别的数据有不同的管控原则和数据开发要求。DataWorks提供了内置的分类分级模板，您也可基于业务需要，在数据保护伞界面，单击左侧导航栏的规则配置 > 数据分类分级，编辑数据分类分级。本文示例使用DataWorks提供的默认数据分级。更多数据分类分级详情，请参见配置敏感数据分类分级。

步骤二：配置敏感数据识别规则

DataWorks支持按照数据的敏感级别和所属分类，定义敏感字段类型，帮助您识别工作空间内的敏感数据。您可使用内置识别规则和自定义识别规则，配置敏感字段类型，详情请参见配置数据识别规则并执行识别任务。

本文示例配置phone敏感字段类型，使用内置识别规则将手机号定义为敏感数据，识别xc_dpe_e2_dev工作空间下的手机号。

在数据保护伞界面，单击左侧导航栏的规则配置 > 敏感数据识别，进入敏感数据识别界面。
配置数据的分类分级。
在分类分级配置区域，为您提供了默认数据分类，您也可根据需要创建新的分类。本文示例使用默认分类基本信息。

配置敏感字段类型。

单击+敏感字段类型，新建敏感字段类型。

配置敏感字段类型基本信息。

主要参数说明如下。

参数	描述
敏感字段类型	基于业务需要自定义敏感字段类型名称。本文示例配置为`phone`。
所属分类	配置该敏感字段类型所属数据分类。数据分类可在分类分级配置区域定义。本文示例配置为DataWorks默认提供的`基本信息`分类。
所属分级	配置该敏感字段类型所属数据分级。数据分级可在步骤一：配置数据分类分级定义。本文示例配置分级为`3`。

单击下一步。

配置敏感字段类型规则。

本文示例规则配置如下图。敏感字段类型配置规则参数说明如下。

参数	描述
识别规则命中条件	定义识别规则的命中条件。取值如下：满足以下任一条件即命中规则：满足数据内容识别、字段注释识别或字段名称识别规则中任何一个条件，即可命中识别规则。同时满足以下条件即命中规则：同时满足所配置的数据内容识别、字段注释识别及字段名称识别规则，才可命中识别规则。说明本文仅以配置数据内容识别规则示例，更多规则配置，请参见数据识别规则。本文示例配置为满足以下任一条件即命中规则。
数据内容识别	根据规则类型定义敏感数据识别规则的内容，用于匹配敏感数据的文本。本文示例规则类型选择内置识别规则，并配置规则识别的数据内容为手机号。当查询的数据具有手机号内容特征时，将被识别为敏感数据。
命中率配置	自定义识别规则的命中率。当一列非空数据中，满足上述识别条件的数据大于指定阈值时，则命中该规则，会将该数据识别为当前类型的敏感数据。本文示例阈值配置为50%，即当某列数据中，满足上述条件的数据超过50%时，则将其识别为敏感数据。

配置完成后，单击发布使用，使规则生效。
识别规则配置完成后，系统每天早上9点会开始运行敏感数据识别自动任务。您也可在敏感数据识别页面顶部菜单栏，手动开启敏感数据识别任务。
说明
自动任务的识别结果是（T+1）天产生；手动任务的识别结果为实时产生。

步骤三：配置数据脱敏规则

用于对识别到的敏感数据进行脱敏规则配置。根据业务管控要求，不同敏感级别的数据脱敏管控存在差异。DataWorks目前支持动态脱敏和静态脱敏，更多数据脱敏介绍，详情请参见创建数据脱敏规则。

本文示例对步骤二的phone规则识别到的敏感数据，配置相应脱敏规则phone。

在数据保护伞界面，单击左侧导航栏的规则配置 > 数据脱敏管理，进入数据脱敏管理界面。

配置数据脱敏规则。

单击图标，新建脱敏规则。

配置规则信息。

本文示例规则信息配置如下图。脱敏规则

配置	描述
敏感字段类型	选择需要脱敏的敏感字段类型。本文示例选择步骤二配置的`phone`类型敏感字段。
脱敏规则名称	定义脱敏规则的名称。本文示例名称配置为`phone`。
脱敏方式	用于定义使用什么方式对所选类型数据进行脱敏。本文示例选择掩盖 > 只展示前三后二的方式，即对于手机号码，只展示前三位和后两位，其余位置均使用星号（*）掩盖。

更多脱敏规则配置，请参见创建数据脱敏规则。

开启工作空间数据脱敏。
脱敏规则配置后，需确保目标工作空间已开启查询内容脱敏。开启后，脱敏规则才会生效。
1. 进入数据开发（DataStudio）。
2. 在左下角单击图标，进入设置页面。
3. 在安全设置与其他页签的数据安全区域，启用页面查询内容脱敏。
验证数据脱敏规则是否生效。
您可在数据开发（DataStudio）界面，创建临时查询任务，查询相关手机号数据，通过查询结果验证手机号脱敏效果。具体表数据及查询语句请根据实际业务配置。示例展示的脱敏效果如下。

步骤四：配置风险识别规则

风险识别管理提供了多维度的关联分析及算法，智能化的分析技术帮助您通过风险识别规则，主动发现风险操作并预警，使用可视化方式进行一站式审计。DataWorks内置了多种场景的风险识别规则，您也可根据业务场景自定义风险规则。更多风险识别规则的介绍，请参见风险识别管理（新版）。

本文示例新建自定义规则，对步骤二配置的phone规则所识别的敏感数据进行风险识别。当10分钟内，xc_dpe_e2_dev项目下满足phone规则的数据导出次数大于等于10次时，则将该导出操作识别为高风险操作。

在数据保护伞界面，单击左侧导航栏的规则配置 > 风险识别管理，进入风险识别管理界面。

配置风险识别规则。

单击图标，新建风险识别规则。

配置规则信息。

本文示例规则信息配置如下图。风险识别规则配置参数说明如下。

区域	参数	描述
基本信息	规则名称	自定义规则名称。本文示例配置为`phone数据的导出风险`。
	规则类型	定义数据风险类型，支持数据访问、数据导出、数据操作、其他等类型。本文示例选择数据导出风险，即导出phone类型数据的操作将被认为是风险操作。
	规则等级	定义该操作的风险等级。本文示例将phone数据的导出定义为高风险。
规则定义	选择条件	定义风险识别规则。您可根据数据位置、数据属性、用户信息、操作时间等条件配置识别规则。本文示例选择数据属性，配置步骤二中的`phone`类型敏感数据在10分钟内导出操作大于等于10次时，则认为触发规则。
告警设置	告警方式	可选择邮件或webHook方式发送报警信息。本文示例选择webHook。关于钉钉机器人webHook的配置说明，请参见发送报警消息至钉钉群。

更多风险识别管理配置，请参见风险识别管理（新版）。

启用规则。
创建的自定义规则默认不生效，您需在风险识别管理页面，找到创建的phone数据的导出风险规则，单击重新生效，手动启用该规则。

步骤五：查看数据

敏感数据识别规则、风险识别规则等配置完成后，您可进入数据保护伞的各个功能模块，查看风险数据。风险数据结果是（T+1）天产生。

功能模块	描述
敏感数据概况	从工作空间、分级等不同维度，为您提供可视化的数据资产展示。您可在该页面查看命中识别规则的字段总数、表总数及对应占比，命中规则的字段各分级、项目数量分布和清单。
敏感数据访问及导出情况	展示基于配置规则识别出的敏感数据的访问量、访问趋势、导出量和导出明细等，帮助您掌控每一次访问敏感数据的情况。
查看数据风险（新版）	从多维度呈现了通过配置的风险识别规则命中的风险数据，方便您了解不同维度的风险分布、指定时间的风险趋势及风险项目空间排名，获取风险高发的时间及项目空间，也可查看产生风险的用户、时间、操作等详情，及时定位并处理风险。
查看敏感数据血缘（公测）	可视化展示敏感数据的血缘关系，自动分析字段之间的异常关联关系、敏感数据识别结果异常的字段，帮助您梳理敏感数据的扩散情况及影响面，提高数据识别效率。
敏感数据溯源	通过提取数据泄露文件中数据的水印信息，帮助您定位到可能会泄露目标数据的责任人。