通过识别任务扫描敏感数据

数据安全中心 DSC(Data Security Center)提供数据洞察能力,通过管理敏感数据识别任务,可协助您识别已授权资产中存在的敏感信息,并进行分类分级管理,包括敏感数据的位置、敏感类型和级别等。掌握数据资产中敏感数据有助于正确管理对应资产的访问权限,从而提升数据安全性。本文介绍如何使用识别任务扫描敏感数据。

识别任务说明

识别任务是根据识别模板内的识别模型对接入资产的数据进行扫描并发现敏感数据,生成扫描结果并对发现的敏感数据进行分类分级。识别模板的详细使用说明,请参见查看和配置识别模板

任务类型

数据安全中心针对敏感数据扫描提供两种识别任务:系统默认任务自定义识别任务

系统默认任务

完成数据资产授权后,DSC会使用主用识别模板通用识别模板为每一个资产实例创建一个扫描任务,此类任务统称为系统默认任务。主用识别模板通用识别模板的详细说明,请参见如何使用识别模板

数据资产授权的具体操作,请参见资产授权。下表是关于系统默认任务您需要了解的信息。

任务配置项

说明

识别模板

系统默认任务使用主用识别模板通用识别模板,不可修改。

  • 主用识别模板:您可以将内置的行业模板(例如互联网行业分类分级模板、车联网分类分级模板)或自定义模板设置为主用模板。

  • 通用识别模板:根据中国国家标准委员会发布的个人信息安全规范GB/T 35273-2020制定的保护个人信息安全和隐私权的模板,该模板可以帮助企业或组织进行有效的个人信息管理和风险控制。

扫描周期(默认)

  • 通过一键连接的数据库、Bucket或LogStore,在连接完成后会创建系统默认任务。

    • 如果一键连接时选中了立即扫描数据库资产并进行数据识别,会立即执行对应系统默认任务。

    • 如果一键连接时未选中立即扫描数据库资产并进行数据识别,您可以前往数据洞察 > 任务管理页面的识别任务页签,在系统默认任务列表中执行重扫操作,手动执行系统默认任务。

      说明

      重要

      基础版不支持执行重扫操作。

  • 通过账密连接的数据库,在连接完成后会创建一次系统默认任务,并从次日开始,在每日凌晨执行扫描任务。

两次扫描至少间隔24小时。

扫描范围

对于已完成资产授权的所有资产:

  • 数据库以及OSS资产:首次扫描会全量扫描已授权资产的所有数据,非首次扫描只扫描增量部分。

  • 对于SLS资产:每次扫描时,以执行扫描的时间作为当天,扫描已授权资产在前天00:00至24:00时间内存储的所有数据。

    如果您需要扫描SLS的更多数据,可以创建自定义识别任务,配置扫描范围。具体操作,请参见本文的新建自定义识别任务

如果您切换了主用识别模板,不会立即触发扫描。在下次系统默认任务执行时,才会启用新的识别模板进行扫描。

自定义识别任务

您可以添加自定义识别任务,使用已启用识别模板扫描指定数据资产。如果需要使用的识别模板未启用,您需要先启用该识别模板。具体操作,请参见启用识别模板

image

扫描说明

扫描速度

不同类型数据资产的扫描速度说明如下,该扫描速度仅供参考:

  • 结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据(TableStore、MaxCompute等):对于较大的数据库(即表数量大于1000个),扫描速度为1000列/分钟。

  • 非结构化数据(OSS、SLS):平均扫描1 TB数据需要6小时。

扫描限制

为了避免数据源中文件或表过大影响整体扫描进度,数据安全中心对可以扫描的文件大小或表的字段大小做了限制,请您在进行敏感数据扫描前了解以下规则:

  • 结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据(TableStore、MaxCompute等):采样时取表中的前200行数据,仅扫描采样数据中每个字段每行的前10 KB数据。

  • 非结构化数据(OSS、SLS):

    • 单个文件如果超过200 MB,则不扫描;如果未超过200 MB,则全量扫描。

    • 对于OSS数据,压缩或归档文件,只扫描其下前1000个子文件。

    • 目前支持扫描的OSS文件类目有文本文件、办公文件、图像文件、设计文档、代码文件、数据文件、二进制文件、验签文件、归档文件、应用程序、音视频文件、化学结构文件和其他类别,包含800+文件类型。具体内容,请参见支持识别的OSS文件类型

识别任务的更多使用限制,请参见使用限制

扫描的数据对象

  • 数据库资产:<实例>/<数据库>/<表名称>。每个数据表作为识别任务扫描的一个数据对象。

  • 大数据:<实例>/<表名称>。每个数据表作为识别任务扫描的一个数据对象。

  • OSS资产:<OSS Bucket>/<文件名称>。每个文件作为识别任务扫描的一个数据对象。

  • SLS资产:<SLS Project>/<logstore>/<时间周期>。每5分钟作为一个时间周期,每个时间周期内存储的数据作为识别任务扫描的一个数据对象。

扫描结果

识别任务扫描结果的敏感等级,由该识别任务使用的识别模板中命中的识别模型的敏感等级决定,以命中的最高敏感等级为准。DSC的敏感数据识别以S1、S2、S3、S4...S10定义敏感等级,数字越大敏感等级越高。N/A表示未识别到敏感数据。

识别模型可选的敏感等级范围由关联的识别模板包含的敏感级别决定。具体设置,请参见设置识别模板的敏感级别

使用建议

建议项

说明

确认扫描范围和优先级

开始进行敏感数据扫描时,会存在较多积压的数据需要分类分级,而无法立即扫描所有数据。建议您先评估您数据资产中哪些资产的扫描优先级较高,选择潜在风险较高的数据,例如经常被访问、更新或未知操作的数据,优先进行扫描。

限制首次扫描范围

为达到最佳扫描效果,您可以指定扫描范围不进行全量扫描。例如从一个数据库、一个OSS Bucket或几个文件开始,通过限制首次扫描范围,可以更好地确定要启用哪些识别特性以及可能使用哪些特征规则,更有利于发现有意义的敏感数据。

如果您不需要使用所有识别特征,建议不要启用所有识别特征,因为误报或无效的识别结果可能会让评估风险变得更加困难。虽然在某些情况下,例如日期、时间、URL等类型数据,启用所有识别特征,可以匹配广泛的结果,但这也可能不适用于大型数据扫描。

对结构化数据的扫描,需要确保样本大小足够,否则无法检出扫描结果。

设置任务启动时间

建议您根据数据资产的更新频率,将识别任务的启动时间设置为每天、每周或每月的某段时间自动运行扫描并生成扫描结果,以便检查自上次扫描后发生变化的数据,从而及时发现变化数据中存在的敏感信息,且定期运行扫描可帮助您识别扫描结果中的趋势或异常值。

前提条件

已在DSC完成目标资产的授权,并为资产开启识别权限。具体操作,请参见资产授权

管理系统默认任务

查看系统默认任务

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择分类分级 > 任务管理

  3. 任务管理页面识别任务页签,单击系统默认任务

  4. 识别任务监控页面,查看默认任务列表。

  5. 您可在系统默认任务的操作列执行以下操作。

    • 重扫:如果识别模型进行了升级、您更换了主用模板或数据库内容有变更,需要尽快获取扫描结果时,可以执行重扫操作。

    • 暂停:如果您发现数据库业务存在异常,可以单击默认识别任务操作列的暂停,暂时停止正在扫描的系统默认任务。

    • 终止:该功能是指终止后续系统默认任务的执行,如果系统默认任务正在扫描中,执行终止操作不会影响当前任务的执行,但后续该系统默认任务将不会被执行。

    • 开启:该功能会重新开启已被终止的系统默认任务。

    说明

    系统默认任务不支持删除。

调整系统默认任务扫描设置

系统默认任务支持设置周期性扫描。建议您将扫描周期设置为与数据库内容更新的频率大致一致,以便及时发现数据库中的变化数据存在的敏感信息。可设置的最小的扫描周期为每天。

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择分类分级 > 任务管理

  3. 任务管理页面识别任务页签,单击系统默认任务

  4. 识别任务监控页面,选中需要设置扫描周期的任务前的复选框,单击任务列表上方的扫描设置

    image

  5. 扫描设置对话框,设置扫描周期和自动扫描开始时间,然后单击确定

    重要
    • 为了将扫描对数据库的影响降到最低,建议您将扫描开始时间设置为数据资产调用低峰期的时段。

    • 在扫描任务执行期间,建议您观察数据库或业务状态,例如CPU使用率、内存使用率是否存在异常突增。如果发现业务异常且异常现象和扫描任务相关,建议您及时暂停或终止识别任务。您可以在任务管理页面,单击目标识别任务操作列的暂停终止,停止识别任务的扫描。

添加自定义识别任务

自定义识别任务功能支持对指定资产使用已启用识别模板进行扫描。如果需要使用已启用模板(非主用)扫描指定数据库,您可以新建识别任务。

新建自定义识别任务

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择分类分级 > 任务管理

  3. 识别任务页签,单击新建识别任务

  4. 新增识别任务面板,配置识别任务配置项,并根据页面提示单击下一步,完成配置后单击确认

    配置项分类

    配置项

    描述

    基本信息

    任务名称

    输入任务名称。

    启动时间

    选择任务启动时间。可选项:

    • 立即扫描:新建识别任务后立即执行扫描。

    • 周期扫描:在扫描频率扫描时间下拉列表中,选择扫描频率和执行扫描的时间段。如需立即执行扫描,您可以选中立即扫描一次

      说明

      扫描时间仅对结构化数据生效,对非结构化数据不生效。

    作用域

    选择识别任务扫描的范围。可选项:

    • 全局扫描:扫描当前阿里云账号下所有已授权且可以正常连通的资产。如果开通多账号统一管理功能,扫描资产还包含成员账号下所有已授权且可以正常连通的资产。

    • 指定数据域:扫描指定数据域下的资产。关于数据域的更多信息,请参见通过数据域管理资产

    • 指定资产类型:扫描单个或多个资产类型下的资产。

    选择模板

    选择扫描使用的识别模板。仅支持选择已启用识别模板,且最多只能选择两个识别模板。启用模板的具体操作,请参见使用识别模板

    识别配置

    结构化数据识别范围

    选择结构化数据(例如RDS、PolarDB)的扫描范围。可选项:

    • 全局扫描:扫描您在作用域中选择的全部结构化数据资产。

    • 指定扫描:选择需要扫描的实例名和实例库名。如需添加多个实例,可单击添加识别范围

    非结构化数据识别配置

    选择非结构化数据(OSS)的扫描范围扫描深度

    • 扫描范围可选项:

      • 全局扫描:扫描您在作用域中选择的非结构化数据资产(OSS)。

      • 指定扫描范围:选择需要扫描的Bucket。仅支持选择在作用域中配置的资产,可选择多个Bucket。

        指定需要扫描的Bucket文件后,支持添加过滤条件以设置更精确的扫描范围。支持设置前缀目录后缀的包含或不包含指定值来过滤扫描范围。

    • 扫描深度可选项:

      • 全局扫描:扫描所有Bucket路径。

      • 指定扫描深度:指定扫描的Bucket路径深度。路径深度以正斜线(/)分隔。取值范围:1~10。建议设置为10以内(包括10)的正整数。例如设置为5时,表示扫描5层(包括5)以内的Bucket路径。

    SLS数据识别配置

    作用域资产范围包含非结构化数据(SLS),才显示并可设置SLS数据识别配置资产范围时间范围

    • 资产范围可选项:

      • 全局扫描:扫描您在作用域中选择的非结构化数据资产(SLS)。

      • 指定扫描范围:选择需要扫描的Project及其下Logstore。仅支持选择在作用域中配置的资产,可选择一个Project,多个Logstore。

    • 时间范围可选项:

      • 最近15分钟最近1小时昨天最近1天最近7天最近30天

      • 自定义:可选时间范围的单位为分钟,步长为5分钟。

    其他配置

    识别覆盖

    设置检测到的敏感数据曾经被订正过时的处理方式。可选项:

    • 跳过手工打标结果:保持原有的手工订正结果。推荐选择该方式。

    • 覆盖手工打标结果:使用新的识别结果覆盖手工订正的结果。

    任务备注

    输入任务备注信息。

编辑或删除自定义识别任务

image

  • 编辑:重新设置自定义识别任务,支持修改所有参数。

  • image > 删除:删除多余的自定义识别任务。

管理识别任务状态

重扫识别任务

如果识别模型进行了升级,或数据库内容发生了变化并且您希望尽快看到扫描结果,您可以执行重扫操作。重扫会对目标资产进行全量扫描。执行重扫操作后,扫描任务会立即被执行。建议您将扫描开始时间设置为数据资产调用低峰期的时段。

在执行重扫操作前,您需要确保相关识别模板为已启用状态。

说明

自定义识别任务的启动时间立即扫描,不支持执行重扫操作。

  1. 识别任务页签,执行重扫操作:

    • 重扫自定义识别任务:在任务列表中,单击目标自定义识别任务操作列的重扫

    • 重扫系统默认任务:单击系统默认任务,找到目标资产,单击操作列的重扫

  2. 您可以在识别任务的扫描状态列,查看扫描进度。

暂停或终止识别任务

image

  • 暂停:如果您发现数据库业务存在异常,可以单击自定义识别任务操作列的暂停,暂时停止正在扫描的识别任务。

  • 终止:终止当前和后续识别任务(支持自定义识别任务和系统默认任务)的执行。

订正敏感数据命中的识别模型

订正功能可以对误标或漏标的敏感数据进行订正,以便企业对数据进行更加精准的管理和保护。数据安全中心提供了订正和恢复敏感数据识别模型的能力,您可以参考以下步骤操作。

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择分类分级 > 任务管理

  3. 任务管理页面,单击订正任务页签。

  4. 在左侧数据类型导航栏,单击需要订正的资产类型。

  5. 单击目标敏感数据操作列的订正恢复,根据页面提示,修改订正后模型,然后单击确定

    image

    执行恢复操作后,会恢复未订正前的识别模型。

查看和导出敏感数据识别结果

DSC控制台中数据洞察资产透视数据目录页面,展示使用主用识别模板和通用识别模板检测的最新敏感数据结果。具体内容,请参见查看敏感数据识别结果

通过导出任务功能可以导出使用已启用识别模板(主用识别模板或活跃识别模板)检测出的敏感数据识别结果。您可以新建导出任务,DSC会获取任务中指定的识别模板检测的指定资产中的敏感数据识别结果供您下载。

重要

导出任务中选择的识别模板和资产类型,必须已有对应的识别任务且已成功执行完成。否则,通过导出任务下载的敏感数据识别结果为空。

新建导出任务

您可以参考以下内容创建导出任务并下载导出结果。

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择分类分级 > 任务管理

  3. 任务管理页面,单击导出任务页签。

  4. 导出任务页签,单击新建导出任务

  5. 配置导出任务,然后单击确定

    1. 基本信息区域,输入任务名称并选择识别任务使用的模板。

      仅支持选择已启用模板。

    2. 导出维度区域,选择资产类型资产实例

      • 资产类型:选中需要导出的资产类型。

      • 资产实例:选中需要导出的资产实例。

    创建导出任务后,您可以在导出任务列表查看导出任务的状态。需要导出的数据量越大,导出需要的时间越长,请您耐心等待。

下载导出的敏感数据识别结果

等待导出状态已完成时,单击目标导出任务操作列的下载

image

重要

完成导出后,您需要在三天内下载导出的数据。超过三天导出任务会过期,您将无法下载导出的敏感数据。

相关文档