数据分类分级

数据分类分级是保障数据安全的重要前提。它为各行业提供对敏感数据类型及其级别的识别与划分能力,能够有效检测组织数据资产中是否存在敏感信息,并根据其敏感程度进行等级划分。分类分级不仅有助于准确掌握数据资产中的敏感内容,还为后续的数据管理和保护措施奠定坚实的基础。掌握数据资产中的敏感数据能够帮助正确管理相应资产的访问权限、数据脱敏和数据访问行为审计等,从而提升数据安全性。

功能介绍

数据分类分级是DataWorks安全中心所有数据保护能力的基础和起点。它的核心目标是帮助您自动发现和标记散落在各个数据源中的敏感数据,精准回答“我有哪些敏感数据?”和“它们在哪里?”这两个关键问题。

  1. 第一步:配置数据分类分级规则

    您首先需要定义一套敏感数据的识别标准。这包括:

    • 数据分级:为数据敏感度贴上标签,如 S1 (公开)、S2 (内部)。

    • 数据分类:为数据进行业务分组,如 个人信息财务数据

    • 数据类型:定义具体的敏感数据种类,如 手机号身份证号。在创建时,您需要将其归属到一个数据分类,并为其指定一个数据分级

    • 识别规则:这是自动化发现的核心。您可以为每个数据类型设置强大的识别规则,支持:

      • 按内容识别:通过正则表达式或内置算法(如身份证校验)匹配数据内容。

      • 按字段名称/注释识别:通过正则表达式匹配字段的命名或注释信息。

  2. 第二步:创建识别任务

    通过创建识别任务,将您定义好的规则应用到指定的数据源(如MaxCompute、Hologres)上进行扫描。任务支持立即执行的单次扫描,也支持用于持续监控的周期性(天/周/月)扫描。

  3. 第三步:生成识别结果

    任务执行后(周期性任务为T+1生效),系统会生成一份详尽的识别结果清单,即您的敏感数据资产目录。它清晰地列出了哪个表的哪个字段被识别为何种敏感类型。对于识别偏差,您还可以进行人工修订,确保目录的最终准确性。

最终,这份经过识别和确认的敏感数据资产目录,将作为下游数据脱敏、风险监控、访问审计等所有高级安全策略的精确输入。

限制说明

  • 适用用户:开通DataWorks的标准版、专业版、企业版,且在安全中心选择DataWorks新版数据安全的用户。

  • 支持地域:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)。

  • 支持计算源:MaxCompute、Hologres。

前提条件

  • 登录DataWorks主账号或RAM账号,且拥有以下权限和角色满足任一条件:

    • 拥有AliyunDataWorksFullAccess权限的账号。

    • 拥有DataWorks租户安全管理员角色的账号。

    • 拥有DataWorks租户管理员角色的账号。

  • 已完成新用户指引

功能入口

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 安全中心,在右侧页面中单击进入安全中心

  2. 在左侧导航栏,选择进入敏感数据保护 > 数据分类分级页面。

配置数据分类

  1. 进入数据分类。

    1. 在数据分类分级页面,单击进入数据分类页签。

    2. 数据分类页签左侧为数据分类,右侧为数据分类中包含的数据类型。单击分类目录中的任一分支,可以在右侧查看当前类别中包含的数据类型,并且可以通过操作列对数据类型进行查看编辑删除操作。

  2. 新增数据类型。

    重要

    系统内置预选模版的数据分类数据类型,您可按需编辑。

    1. 数据分类页面,单击左上角的新增数据类型添加新的数据类型。

      新增数据类型需配置以下表格内容:

      配置项

      说明

      数据类型

      请输入数据类型的名称,该名称为全局唯一。满足识别规则的数据(列),DataWorks按照数据类型标记识别结果。

      数据分类

      指定数据类型所属的数据分类。

      数据级别

      指定该数据类型对应的安全分级。满足识别规则的数据(列),DataWorks按照数据级别标记识别结果。

      识别规则

      当满足识别规则时,DataWorks会标记数据(列)的识别结果。

      识别规则支持三种:数据内容识别字段名称识别字段注释识别。每一种识别规则都需要独立设置和独立验证。

      • 满足任一规则:三种识别规则,只要有一个规则命中,则判定为满足识别规则。

      • 同时满足以下规则:三种识别规则,全部命中,才会判定为满足识别规则。

      数据类型描述

      根据您的业务场景自定义数据类型的描述内容。

    2. 完成配置后,可选择立即生效或仅保存。

      1. 立即生效:保存配置,并且数据类型识别规则立即生效。数据识别任务执行时,会将满足识别规则的数据(列)标记为该数据类型。

      2. 仅保存:只保存配置,但是识别规则不会生效。数据识别任务执行时,不会标记该数据类型。

  3. 删除数据类型:只能删除新增的数据类型,无法删除内置的数据类型。

    重要

    删除数据类型后,会产生以下影响:

    • 删除历史的识别结果。同时,新的识别任务将不会再识别该数据类型。

    • 删除脱敏策略中该数据类型的脱敏规则。

    • 删除数据类型的敏感数据访问记录。

    • 删除安全风险识别规则中该类型的相关规则。

配置数据分级

DataWorks最多支持十个分级,可以根据自己的业务需要修改分级描述。安全分级数值越大,安全级别越高。

  1. 进入数据分级:在数据分类分级页面单击进入数据分级页签。

  2. 编辑数据分级:单击页面左上角的编辑按钮,即可对不同级别的数据分级的详细描述进行修改调整。

  3. 保存数据分级:完成数据分级的详细描述修改后,单击左上角的保存按钮,保存数据分级。

管理数据识别任务

  1. 进入数据识别任务:在数据分类分级页面单击进入识别任务页签。

  2. 新建数据识别任务。

    1. 识别任务页签单击左上角的新建任务按钮新建数据识别任务。

      新建数据识别任务需配置以下表格内容:

      配置项

      说明

      任务名称

      数据分类分级识别任务的名称,由用户定义。

      数据源类型

      选择数据源类型。支持MaxComputeHologres类型。

      任务类型

      • 单次任务:仅执行1次,不会重复执行。

      • 周期任务:在固定时间点,重复执行。

      重要
      • 周期任务仅对新增的数据(列)进行识别。您可以通过单次任务,对历史的识别结果进行二次判定。

      • DataWorks仅支持1个周期任务。

      识别范围

      指定数据识别任务执行时,要覆盖的数据范围。最小范围:数据表。

      数据源类型选择MaxCompute时,支持选择项目或数据表。

      数据源类型选择Hologres时,支持选择为库或数据表。需要选择对应实例已绑定成为具体的工作空间下的数据源,并选择资源组进行网络连通性验证。

      抽样数量

      识别任务执行时,抽取每一列的数据量。

      数据量越大,识别的准确度越高,任务耗时越长。最大支持200。

      数据抽样使用

      识别任务执行时,DataWorks仅能使用指定的账号访问数据。如果指定的账号没有权限,就无法进行抽样识别。

      重要

      请确保您指定的账号,在指定的识别范围中能访问表名、列名、列的描述信息以及访问列的数据。

    2. 配置完成后,单击确认,即可保存任务。

  3. 编辑数据识别任务。

    针对于周期性的识别任务,在识别任务页签内,单击目标任务操作列的编辑按钮即可对选中任务重新进行配置。

    重要

    单次运行任务无法编辑,需删除任务后再新建。

  4. 查看数据识别任务。

    1. 识别任务页签内,查找到需要查看详细信息的任务后,单击操作列的查看按钮,即可进入任务详情页面查看任务的详细信息。

    2. 在任务详情页面,单击运行记录后的运行次数,即可查看该任务每一次执行的开始执行时间结束执行时间

  5. 删除数据识别任务。

    识别任务页签内,可以对数据识别任务单个进行删除也可以选中多个任务进行批量删除。

    • 单个删除:

      查找到需要查看详细信息的任务后,单击操作列的删除按钮即可删除选中任务。

    • 批量删除:

      批量选中需要删除的数据识别任务后,单击左下角的批量删除按钮,即可批量删除选中任务。

    重要
    • 删除数据识别任务时,不会停止运行中的任务。

    • 删除数据识别任务后,周期性任务不会再执行新任务。

    • 删除数据识别任务后,历史任务的识别结果仍然保留。

查看数据分类分级结果

重要

数据识别每天凌晨获取最新的表结构信息。您新增的字段/表/库,在次日凌晨才能完成数据分类分级。

  1. 在数据分类分级页面单击进入识别结果页签。在数据分类分级识别结果页面,可查看识别任务运行后,对表字段信息的识别结果。

  2. 查看数据分类分级结果。

    您可在识别结果页面查看数据资产的数据分类、数据分级的识别结果信息,以下为不同信息的说明:

    识别信息

    说明

    数据源类型

    数据资产归属的数据引擎。

    实例/项目/数据库

    数据资产归属的实例、项目或数据库名称。

    数据资产归属的数据表的名称。

    字段

    数据资产的列名称。

    数据分类

    数据识别任务判定该数据匹配的数据类型;或者用户修订后的数据类型。

    数据类型

    数据类型对应的数据分类目录;或者用户修订后的数据分类目录。按照一级目录/二级目录/……的方式展示。

    数据分级

    数据类型对应的数据安全级别;或者用户修订后的数据分级。

    判定方式

    系统识别:由数据识别任务判定的结果。

    修订:由用户修订后的结果。

    更新时间

    最后一次系统识别、用户修订判定结果的时间。

  3. 修订数据分类分级结果。

    您可在识别结果页面的操作栏对分类分级结果进行删除或修订,您可以通过以下两种方式对数据资产的识别结果进行修订:

    • 重新识别覆盖:创建新的识别任务(任务类型为单次任务),对指定范围的资产重新判定识别结果。

    • 手动修订结果:手动修订数据资产的识别结果,操作方式如下:

      1. 通过识别结果页签内的搜索栏过滤筛选出需要修改识别结果的数据资产,单击操作栏的修订按钮。

      2. 在修订弹窗内手动选择数据类型进行修改即可。