查看敏感数据识别任务-数据安全中心(DSC)-阿里云帮助中心

前提条件

已在DSC完成目标资产授权，允许DSC访问资产数据。

识别任务说明

识别任务是根据识别模板内的识别模型对接入资产的数据进行扫描并发现敏感数据，生成扫描结果并对发现的敏感数据进行分类分级。识别模板的详细使用说明，请参见查看和配置识别模板。

任务类型

数据安全中心针对敏感数据扫描提供两种识别任务：系统默认任务和自定义识别任务。

系统默认任务

完成资产授权后，DSC会使用主用识别模板为每一个资产实例创建一个扫描任务，此类任务统称为系统默认任务。主用识别模板的详细说明，请参见如何使用识别模板。

下表是关于系统默认任务您需要了解的信息。

任务配置项	说明
识别模板	系统默认任务使用主用识别模板，不可修改。如果主用识别模板是内置识别模板，会同时使用通用识别模板。主用识别模板：您可以将内置的行业模板（例如互联网行业分类分级模板、车联网分类分级模板）或自定义模板设置为主用模板。通用识别模板：根据中国国家标准委员会发布的个人信息安全规范GB/T 35273-2020制定的保护个人信息安全和隐私权的模板，该模板可以帮助企业或组织进行有效的个人信息管理和风险控制。
扫描周期（默认）	通过一键连接的数据库、Bucket或LogStore，在连接完成后会创建系统默认任务。如果一键连接时选中了立即扫描数据资产并进行数据识别，会立即执行对应系统默认任务。如果一键连接时未选中立即扫描数据资产并进行数据识别，您可以前往分类分级 > 任务管理页面的识别任务页签，在系统默认任务列表中执行重扫操作，手动执行系统默认任务。通过账密连接的数据库，在连接完成后会创建一次系统默认任务，并从次日开始，在每日凌晨执行扫描任务。两次扫描至少间隔24小时。
扫描范围	对于已完成资产授权的所有资产：数据库以及OSS资产：首次扫描会全量扫描已授权资产的所有数据，非首次扫描只扫描增量部分。对于SLS资产：每次扫描时，以执行扫描的时间作为当天，扫描已授权资产在前天00:00至24:00时间内存储的所有数据。如果您需要扫描SLS的更多数据，可以创建自定义识别任务，配置扫描范围。具体操作，请参见本文的*新建自定义识别任务*。如果您切换了主用识别模板，不会立即触发扫描。在下次系统默认任务执行时，才会启用新的识别模板进行扫描。

自定义识别任务

您可以添加自定义识别任务，使用已启用识别模板扫描指定数据资产。如果需要使用的识别模板未启用，您需要先启用该识别模板。具体操作，请参见启用识别模板。

扫描说明

扫描限制

为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：

结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：采样时默认取表中的前200行数据，您也可以手动修改（最大1000行），仅扫描采样数据中每个字段每行的前10 KB数据。
非结构化数据（OSS、SLS）：
- 默认情况下，系统不扫描超过200 MB的单个文件。
- 对于OSS数据：
  - 可手动调整单个文件大小扫描阈值，最大支持1000 MB。
  - 压缩或归档文件，只扫描其下前1000个子文件。
  - 扫描单个OSS Bucket时，支持并发扫描文件的最大数量为4个。
  - QPS占用限制：单个任务扫描时，占用对应OSS Bucket的OpenAPI调用次数最大为100次/秒。
  - 带宽占用限制：单任务扫描时，占用对应OSS Bucket内网的下行流量带宽最大为200 MB/秒。
- 目前支持扫描的OSS文件类目有文本文件、办公文件、图像文件、设计文档、代码文件、数据文件、二进制文件、验签文件、归档文件、应用程序、音视频文件、化学结构文件和其他类别，包含800+文件类型。具体内容，请参见支持识别的OSS文件类型。

识别任务的更多使用限制，请参见使用限制。

扫描的数据对象

数据库资产：<实例>/<数据库>/<表名称>。每个数据表作为识别任务扫描的一个数据对象。
大数据：<实例>/<表名称>。每个数据表作为识别任务扫描的一个数据对象。
OSS资产：<OSS Bucket>/<文件名称>。每个文件作为识别任务扫描的一个数据对象。
SLS资产：<SLS Project>/<logstore>/<时间周期>。每5分钟作为一个时间周期，每个时间周期内存储的数据作为识别任务扫描的一个数据对象。

扫描速度

不同类型数据资产的扫描速度说明如下，该扫描速度仅供参考：

结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为每分钟1000列（以每列200行计算）。
非结构化数据（OSS、SLS）：扫描1 TB数据需要6小时~48小时（因1 TB数据中不同文件类型分布会导致扫描时长区间跨度大），平均时长为24小时。

扫描机制

任务类型

首次扫描

后续自动扫描

系统默认任务

全量扫描目标资产中现有的全部数据。

对新增或存在修改的数据对象进行扫描。

您可以手动执行重扫操作，也可以配置系统默认任务的扫描周期。

自定义识别任务

按照您自定义的扫描范围进行扫描。

按照您自定义的扫描周期，对扫描范围内新增或存在修改的数据对象进行扫描。

后续自动扫描时，对于已扫描过的数据对象，如果没有任何变更，DSC不会对其进行重复扫描。

扫描结果

识别任务扫描结果的敏感等级，由该识别任务使用的识别模板中命中的识别模型的敏感等级决定，以命中的最高敏感等级为准。DSC的敏感数据识别以S1、S2、S3、S4...S10定义敏感等级，数字越大敏感等级越高。N/A表示未识别到敏感数据。

识别模型可选的敏感等级范围由关联的识别模板包含的敏感级别决定。具体设置，请参见设置识别模板的敏感级别。

使用建议

建议项	说明
确认扫描范围和优先级	开始进行敏感数据扫描时，会存在较多积压的数据需要分类分级，而无法立即扫描所有数据。建议您先评估您数据资产中哪些资产的扫描优先级较高，选择潜在风险较高的数据，例如经常被访问、更新或未知操作的数据，优先进行扫描。
限制首次扫描范围	为达到最佳扫描效果，您可以指定扫描范围不进行全量扫描。例如从一个数据库、一个OSS Bucket或几个文件开始，通过限制首次扫描范围，可以更好地确定要启用哪些识别特性以及可能使用哪些特征规则，更有利于发现有意义的敏感数据。如果您不需要使用所有识别特征，建议不要启用所有识别特征，因为误报或无效的识别结果可能会让评估风险变得更加困难。虽然在某些情况下，例如日期、时间、URL等类型数据，启用所有识别特征，可以匹配广泛的结果，但这也可能不适用于大型数据扫描。对结构化数据的扫描，需要确保样本大小足够，否则无法检出扫描结果。
设置任务启动时间	建议您根据数据资产的更新频率，将识别任务的启动时间设置为每天、每周或每月的某段时间自动运行扫描并生成扫描结果，以便检查自上次扫描后发生变化的数据，从而及时发现变化数据中存在的敏感信息，且定期运行扫描可帮助您识别扫描结果中的趋势或异常值。

管理系统默认任务

查看系统默认任务

登录数据安全中心控制台。
在左侧导航栏，选择分类分级 > 任务管理。
在任务管理页面识别任务页签，单击系统默认任务。
在识别任务监控页面，查看默认任务列表。
您可在系统默认任务的操作列执行以下操作。
- 重扫：如果识别模型进行了升级、您更换了主用模板或数据库内容有变更，需要尽快获取扫描结果时，可以执行重扫操作。
- 暂停：如果您发现数据库业务存在异常，可以单击默认识别任务操作列的暂停，暂时停止正在扫描的系统默认任务。
- 终止：终止当前和后续系统默认任务的执行。
- 开启：该功能会重新开启已被终止的系统默认任务。
说明
系统默认任务不支持删除。

调整系统默认任务扫描设置

系统默认任务支持设置周期性扫描。建议您将扫描周期设置为与数据库内容更新的频率大致一致，以便及时发现数据库中的变化数据存在的敏感信息。可设置的最小的扫描周期为每天。

在识别任务监控页面，选中需要设置扫描周期的任务前的复选框，单击任务列表上方的扫描设置。
在扫描设置对话框，设置扫描周期和自动扫描开始时间，然后单击确定。
重要
- 为了将扫描对数据库的影响降到最低，建议您将扫描开始时间设置为数据资产调用低峰期的时段。
- 在扫描任务执行期间，建议您观察数据库或业务状态，例如CPU使用率、内存使用率是否存在异常突增。如果发现业务异常且异常现象和扫描任务相关，建议您及时暂停或终止识别任务。您可以在任务管理页面，单击目标识别任务操作列的暂停或终止，停止识别任务的扫描。

添加自定义识别任务

自定义识别任务功能支持对指定资产使用已启用识别模板进行扫描。如果需要使用已启用模板（非主用）扫描指定数据库，您可以新建识别任务。

重要

系统最多支持5个活跃识别任务，其中每个周期性扫描任务将占用一个活跃任务名额，因此当您配置了5个周期性任务后，将无法再创建新的识别任务。

新建自定义识别任务

在左侧导航栏，选择分类分级 > 任务管理。
在识别任务页签，选择需要创建识别任务的资产类型，单击新建识别任务。

可选的资产类型分为三大类：结构化数据（RDS、PolarDB、PolarDB-X、PolarDB-X 2.0、MongoDB、OceanBase、自建数据库）、非结构化数据（OSS、SLS）和大数据（TableStore、MaxCompute、ADB-MYSQL、ADB-PG），各子项右侧显示已接入的数据源数量。

在新增识别任务面板，配置识别任务配置项，完成配置后单击确认。

配置项分类	配置项	描述
基本信息	选择资产类型	展示您选择的资产类型且不可变更。
	任务名称	输入任务名称。
	任务备注	输入任务备注信息。
	任务计划	选择任务启动时间。可选项：立即扫描：新建识别任务后立即执行扫描。周期扫描：在扫描频率和扫描时间（仅对结构化数据生效）下拉列表中，选择扫描频率和执行扫描的时间段。如需立即执行扫描，您可以选中立即扫描一次。说明扫描时间仅对结构化数据生效，对非结构化数据不生效。
	选择模板	选择扫描使用的识别模板。仅支持选择已启用识别模板，且最多只能选择两个识别模板。启用模板的具体操作，请参见使用识别模板。
识别范围	结构化数据识别范围	选择结构化数据（例如RDS、PolarDB）的扫描范围。可选项：全局扫描：扫描您的结构化数据资产。指定扫描：配置实例名、数据库名和扫描限制。配置实例名和数据库名。如需添加多个实例，可单击添加识别范围。配置扫描限制。默认扫描前200行，最大支持1000行。
	非结构化数据OSS识别范围	选择非结构化数据（OSS）的识别对象、抽样比例、扫描路径深度和扫描限制。识别对象可选项：全局扫描：扫描您的非结构化数据资产（OSS）。指定扫描范围：选择需要扫描的Bucket。可选择多个Bucket。指定需要扫描的Bucket文件后，支持添加过滤条件以设置更精确的扫描范围。支持设置前缀、目录、后缀的包含或不包含指定值来过滤扫描范围。抽样比例：通过ListObjects API获取非结构化数据资产（OSS）的数据。并按照配置方式对数据进行扫描。全局扫描：对所有数据进行扫描。指定抽样比例：选择抽样比例，按照抽样比例对数据进行扫描。说明例如您选择抽样比例为1/10，那么每扫描一个文件后会跳过9个文件，再扫描第11个文件。扫描路径深度可选项：全局扫描：对资产全路径下的数据进行扫描。指定扫描范围：指定Bucket路径深度。路径深度以正斜线（/）分隔。取值范围：1~10。例如设置为5时，表示扫描 5 层及以内的 Bucket 路径。扫描限制：默认200 MB，最大支持1000 MB。对于超过扫描限制的数据，仅扫描配置大小。例如设置为200 MB，文件大小为300 MB，超过限制的数据不扫描。大模型图片检测：当存在可用的 AI 图片检测额度时，可启用该功能，调用 AI 大模型能力，以提升图片中敏感信息识别的准确性。是否将全量识别结果同步到SLS：勾选是否将全量识别结果同步到SLS。
	非结构化数据SLS识别范围	设置SLS的资产范围和时间范围。资产范围可选项：全局扫描：扫描您的非结构化数据资产（SLS）。指定扫描范围：选择需要扫描的Project及其下Logstore。可选择一个Project，多个Logstore。时间范围可选项：最近15分钟、最近1小时、昨天、最近1天、最近7天、最近30天。自定义：可选时间范围的单位为分钟，步长为5分钟。
其他配置	识别覆盖	设置检测到的敏感数据曾经被订正过时的处理方式。可选项：跳过手工打标结果：保持原有的手工订正结果。推荐选择该方式。覆盖手工打标结果：使用新的识别结果覆盖手工订正的结果。

编辑或删除自定义识别任务

扫描任务列表包含任务编号、任务名称、操作员、识别模板、扫描状态、启动时间、结束时间和操作列。扫描状态包括已完成、未开始和已终止三种。根据状态不同，操作列提供重扫、详情、编辑、暂停、终止等入口。

编辑：重新设置自定义识别任务，支持修改所有参数。
> 删除：删除多余的自定义识别任务。

管理识别任务状态

重扫识别任务

如果识别模型进行了升级，或数据库内容发生了变化并且您希望尽快看到扫描结果，您可以执行重扫操作。重扫会对目标资产进行全量扫描。执行重扫操作后，扫描任务会立即被执行。建议您将扫描开始时间设置为数据资产调用低峰期的时段。

在执行重扫操作前，您需要确保相关识别模板为已启用状态。

说明

自定义识别任务的启动时间为立即扫描，不支持执行重扫操作。

在识别任务页签，执行重扫操作：
- 重扫自定义识别任务：在任务列表中，单击目标自定义识别任务操作列的重扫。
- 重扫系统默认任务：单击系统默认任务，找到目标资产，单击操作列的重扫。
您可以在识别任务的扫描状态列，查看扫描进度。

暂停或终止识别任务

扫描任务列表包含任务编号、任务名称、操作员、识别模板、扫描状态、启动时间、结束时间和操作列。扫描状态包括已完成、未开始和已终止三种。根据状态不同，操作列提供重扫、详情、编辑、暂停、终止等入口。

暂停：如果您发现数据库业务存在异常，可以单击自定义识别任务操作列的暂停，暂时停止正在扫描的识别任务。
终止：终止当前和后续识别任务（支持自定义识别任务和系统默认任务）的执行。

订正敏感数据命中的识别模型

订正功能可以对误标或漏标的敏感数据进行订正，以便企业对数据进行更加精准的管理和保护。数据安全中心提供了订正和恢复敏感数据识别模型的能力，您可以参考以下步骤操作。

在任务管理页面，单击订正任务页签。
在左侧数据类型导航栏，单击需要订正的资产类型。
单击目标敏感数据操作列的订正或恢复，根据页面提示，修改订正后模型，然后单击确定。

订正后模型下拉框中可选择KEY私钥、PEM证书、AccessKeyId、AccessKeySecret、GPS位置、密码等敏感数据分类。

执行恢复操作后，会恢复未订正前的识别模型。

查看和导出敏感数据识别结果

DSC控制台中分类分级 > 资产透视页面，展示使用主用识别模板检测的最新敏感数据结果。具体内容，请参见查看敏感数据识别结果。

通过导出任务功能可以导出使用已启用识别模板（主用识别模板或活跃识别模板）检测出的敏感数据识别结果。您可以新建导出任务，DSC会获取任务中指定的识别模板检测的指定资产中的敏感数据识别结果供您下载。

重要

导出任务中选择的识别模板和资产类型，必须已有对应的识别任务且已成功执行完成。否则，通过导出任务下载的敏感数据识别结果为空。

新建导出任务

您可以参考以下内容创建导出任务并下载导出结果。

在任务管理页面，单击导出任务页签。
在导出任务页签，单击新建导出任务。
配置导出任务，然后单击确定。
1. 在基本信息区域，输入任务名称并选择识别任务使用的模板。
  
  仅支持选择已启用模板。
2. 在导出维度区域，选择资产类型或资产实例。
  - 资产类型：选中需要导出的资产类型。
  - 资产实例：选中需要导出的资产实例。
创建导出任务后，您可以在导出任务列表查看导出任务的状态。需要导出的数据量越大，导出需要的时间越长，请您耐心等待。

下载导出的敏感数据识别结果

等待导出状态为已完成时，单击目标导出任务操作列的下载。

重要

完成导出后，您需要在三天内下载导出的数据。超过三天导出任务会过期，您将无法下载导出的敏感数据。

通过识别任务扫描敏感数据