识别任务说明

更新时间: 2024-08-12 11:24:29

识别任务用来扫描资产中的敏感数据,对数据进行分类分级。数据安全中心提供两种识别任务模式:系统默认任务和自定义识别任务。完成资产授权后,数据安全中心会为每一个数据库或Bucket自动创建敏感数据识别任务,即系统默认任务;您可以根据实际需要自定义识别任务。本文介绍识别任务的相关说明,及如何查看系统默认任务、新建识别任务、订正和导出敏感数据识别结果。

扫描说明

扫描模板

系统默认任务和自定义识别任务执行时除了使用对应的模板外(系统默认任务使用主用模板,自定义识别任务使用任务中指定的模板),默认还会使用通用识别模板。

通用识别模板是根据中国国家标准委员会发布的个人信息安全规范GB/T 35273-2020制定的保护个人信息安全和隐私权的模板,该模板可以帮助企业或组织进行有效的个人信息管理和风险控制。

扫描速度

不同类型数据库的扫描速度说明如下,该扫描速度仅供参考:

  • 结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据(TableStore、MaxCompute等):对于较大的数据库(即表数量大于1000个),扫描速度为1000列/分钟。

  • 非结构化数据(OSS):平均扫描1 TB数据需要6小时。

文件或表扫描限制

为了避免数据源中文件或表过大影响整体扫描进度,数据安全中心对可以扫描的文件大小或表的字段大小做了限制,请您在进行敏感数据扫描前了解以下规则:

  • 结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据(TableStore、MaxCompute等):采样时取表中的前200行数据,仅扫描采样数据中每个字段每行的前10 KB数据。

  • 非结构化数据(OSS):

    • 不扫描超过200 MB的文件,未超过200 MB的文件全量扫描。

    • 压缩或归档文件,只扫描前1000个子文件。

前提条件

已完成数据资产授权,并为资产开启识别权限。具体操作,请参见通用数据库授权

系统默认任务

任务说明

完成数据资产授权后,数据安全中心会使用主用模板和通用模板为每个资产实例创建一个扫描任务,此类任务统称为系统默认任务。下表是关于系统默认任务您需要了解的信息。

项目

详细说明

识别模板

主用模板+通用识别模板。

主用模板为您设置的主用识别模板,您可以将内置的行业模板(例如互联网行业分类分级模板、车联网分类分级模板)或自定义模板设置为主用模板。

扫描周期(默认)

  • 通过一键连接的数据库或Bucket,在连接完成后会创建系统默认任务。

    • 如果一键连接时选中了立即扫描数据库资产并进行数据识别,会立即执行对应系统默认任务。

    • 如果一键连接时未选中立即扫描数据库资产并进行数据识别,您可以前往数据洞察 > 任务管理页面的识别任务页签,在系统默认任务列表中执行重扫操作,手动执行系统默认任务。

      说明

      仅企业版支持执行重扫操作,基础版不支持。

  • 通过账密连接的数据库,在连接完成后会创建一次系统默认任务,并从次日开始,在每日凌晨执行扫描任务。

两次扫描至少间隔24小时。

扫描范围

已完成资产授权的所有资产,首次扫描会全量扫描数据库中的所有数据,非首次扫描只扫描增量部分。

如果您切换了主用模板,不会立即触发扫描;在下次系统默认任务扫描时,才会启用新的扫描模板。

查看扫描结果

支持通过以下方式查看扫描结果:

支持的操作

以下操作均可在系统默认任务的操作列执行。

  • 重扫:如果识别模型进行了升级、您更换了主用模板或数据库内容有变更,需要尽快获取扫描结果时,可以执行重扫操作。

  • 暂停:如果您发现数据库业务存在异常,可以单击默认识别任务操作列的暂停,暂时停止正在扫描的系统默认任务。

  • 终止:该功能是指终止后续系统默认任务的执行,如果系统默认任务正在扫描中,执行终止操作不会影响当前任务的执行,但后续该系统默认任务将不会被执行。

  • 开启:该功能会重新开启已被终止的系统默认任务。

说明

系统默认任务不支持删除。

查看系统默认任务

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择数据洞察 > 任务管理

  3. 任务管理页面识别任务页签,单击系统默认任务

  4. 识别任务监控页面,查看默认任务列表。

调整系统默认任务扫描设置

系统默认任务支持设置周期性扫描。建议您将扫描周期设置为与数据库内容更新的频率大致一致,以便及时发现数据库中的变化的数据中存在的敏感信息。可设置的最小的扫描周期为每天。

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择数据洞察 > 任务管理

  3. 任务管理页面识别任务页签,单击系统默认任务

  4. 识别任务监控页面,选中需要设置扫描周期的任务,单击扫描设置

  5. 扫描设置对话框,设置扫描周期和自动扫描开始时间,并单击确定

    重要
    • 为了将扫描对数据库的影响降到最低,建议您将扫描开始时间设置为数据资产调用低峰期的时段。

    • 在扫描任务执行期间,建议您观察数据库或业务状态,例如CPU使用率、内存使用率是否存在异常突增。如果发现业务异常且异常现象和扫描任务相关,建议您及时暂停或终止识别任务。您可以在任务管理页面,单击目标识别任务操作列的暂停终止,停止识别任务的扫描。

自定义识别任务

新建自定义识别任务

自定义识别任务功能支持对指定资产使用已启用模板进行扫描。如果需要使用已启用模板(非主用)扫描指定数据库,您可以新建识别任务。仅支持使用已启用模板新建自定义识别任务,如需使用的识别模板未启用,您需要先启用该识别模板。具体操作,请参见配置识别模板

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择数据洞察 > 任务管理

  3. 识别任务页签,单击新建识别任务

  4. 新增识别任务面板,配置识别任务配置项,并根据页面提示单击下一步,完成配置后单击确认

    配置项分类

    配置项

    描述

    基本信息

    任务名称

    输入任务名称。

    启动时间

    选择任务启动时间。可选项:

    • 立即扫描:新建识别任务后立即执行扫描。

    • 周期扫描:在扫描频率扫描时间下拉列表中,选择扫描频率和执行扫描的时间段。如需立即执行扫描,您可以选中立即扫描一次

      说明

      扫描时间仅对结构化数据生效,对非结构化数据不生效。

    作用域

    选择识别任务扫描的范围。可选项:

    • 全局扫描:扫描当前阿里云账号下所有已授权且可以正常连通的资产。

    • 指定数据域:扫描指定数据域下的资产。关于数据域的更多信息,请参见通过数据域管理资产

    • 指定资产类型:扫描单个或多个资产类型下的资产。

    选择模板

    选择扫描使用的识别模板。仅支持选择已启用模板,且最多只能选择两个模板。关于识别模板的更多信息,请参见配置识别模板

    结构化数据识别配置

    结构化数据识别范围

    选择结构化数据(例如RDS、PolarDB)的扫描范围。可选项:

    • 全局扫描:扫描您在作用域中选择的全部结构化数据资产。

    • 指定扫描:选择需要扫描的实例名和实例库名。如需添加多个实例,可单击添加识别范围

    非结构化数据识别配置

    扫描范围

    选择非结构化数据(OSS)的扫描范围。可选项:

    • 全局扫描:扫描您在作用域中选择的全部非结构化数据资产(OSS)。

    • 指定扫描范围:选择需要扫描的Bucket。仅支持选择在作用域中配置的资产,可选择多个Bucket。

      指定需要扫描的Bucket文件后,支持设置过滤条件设置更精确的扫描范围。支持设置前缀目录后缀包含或不包含指定值来过滤扫描范围。

    扫描深度

    选择非结构化数据(OSS)的扫描深度。可选项:

    • 全局扫描:扫描所有Bucket路径。

    • 指定扫描深度:指定扫描的Bucket路径深度。路径深度以正斜线(/)分隔。取值范围:1~10。建议设置为10以内(包括10)的正整数。例如设置为5时,表示扫描5层(包括5)以内的Bucket路径。

    其他配置

    识别覆盖

    设置检测到的敏感数据曾经被订正过时的处理方式。可选项:

    • 跳过手工打标结果:保持原有的手工订正结果。推荐选择该方式。

    • 覆盖手工打标结果:使用新的识别结果覆盖手工订正的结果。

    任务备注

    输入任务备注信息。

重扫自定义识别任务

如果识别模型进行了升级,或数据库内容发生了变化并且您希望尽快看到扫描结果,您可以执行重扫操作。重扫会对目标资产进行全量扫描。执行重扫操作后,会扫描会立即被执行。建议您将扫描开始时间设置为数据资产调用低峰期的时段。

仅自定义识别任务的所有识别模板都为已启用状态时支持执行重扫操作。在执行重扫操作前,您需要确保相关识别模板为已启用状态。

单击目标识别任务操作列的重扫,即可执行重扫操作。您可以在识别任务的扫描状态列,查看扫描进度。

订正任务

订正功能可以对误标或漏标的敏感数据进行订正,以便企业对数据进行更加精准的管理和保护。数据安全中心提供了订正和恢复敏感数据识别模型的能力,您可以参考以下步骤操作。

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择数据洞察 > 任务管理

  3. 任务管理页面,单击订正任务页签。

  4. 在左侧数据类型导航栏,单击需要订正的资产类型。

  5. 单击目标敏感数据操作列的订正恢复,根据页面提示操作,并单击确定

    执行恢复操作后,会恢复未订正前的识别模型。

导出敏感数据识别结果

数据安全中心资产透视数据目录等页面展示的数据为使用主用模板和通用识别模板检测出的最新敏感数据。

导出任务功能提供导出主用模板或已启用模板检测出的敏感数据的能力。创建导出任务后,数据安全中心会获取您在导出任务中指定的识别模板的检测结果数据,供您下载。您需要在创建导出任务前,确保需要导出的识别模板的扫描任务已执行完毕。

您可以参考以下内容创建导出任务并下载导出结果。

  1. 登录数据安全中心控制台

  2. 在左侧导航栏,选择数据洞察 > 任务管理

  3. 任务管理页面,单击导出任务页签。

  4. 导出任务页签,单击新建导出任务

  5. 配置导出任务,然后单击确定

    1. 基本信息区域,输入任务名称并选择识别任务使用的模板。

      仅支持选择已启用模板。

    2. 导出维度区域,选择资产类型资产实例

      • 资产类型:选中需要导出的资产类型。

      • 资产实例:选中需要导出的资产实例。

    创建导出任务后,您可以在导出任务列表查看导出任务的状态。需要导出的数据量越大,导出需要的时间越长,请您耐心等待。

  6. 等待导出状态为已完成时,单击目标导出任务操作列的下载

    重要

    完成导出后,您需要在三天内下载导出的数据。超过三天导出任务会过期,您将无法下载导出的敏感数据。

相关文档

上一篇: 数据洞察 下一篇: 配置识别模板
阿里云首页 数据安全中心 相关技术圈