文档

数据脱敏

更新时间:

DataWorks数据集成实时ETL支持数据脱敏组件使用,可以在来源与去向组件间新增数据脱敏组件,对来源的数据指定字段进行脱敏写入去向数据源当中。

前提条件

  • 已完成数据集成的基本配置与网络资源配置。

  • 数据集成的同步类型为单表实时。

步骤一:配置数据集成任务

  1. 新建数据源,详情请参见:创建并管理数据源

  2. 新建数据集成任务,详情请参见:数据集成侧同步任务

    说明

    当数据集成侧同步任务的同步类型为单表实时,可在数据来源组件与数据去向组件之间新增数据处理组件。详情可参见支持的数据源及同步方案

步骤二:添加数据脱敏组件

  1. 在实时ETL任务编辑页DAG画布中,单击来源去向组件之间的image按钮,新增选择数据脱敏组件。

  2. 配置脱敏规则。

    1. 新建脱敏规则,创建好数据脱敏组件后,单击组件,在数据脱敏进行脱敏规则的配置,需要新建脱敏规则:单击新建脱敏规则,进入脱敏规则的配置面板,进行脱敏规则的配置。详情说明请参考:

      1. 敏感数据类型,可选择为选择已有或选择新增类型,以下为脱敏方式的说明。

        哈希

        哈希可将原始数据加密成固定长度的数据,HASH脱敏方式需要选择安全域。而安全域的脱敏规则不一致,即使相同的待脱敏数据在不同的安全域脱敏后的结果也不一致。

        举例:原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

        假名

        假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。脱敏后数据和脱敏前数据的格式保持一致。

        • 敏感数据类型选中选择已有时:用户需要配置安全域

          说明
          • 安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏后的结果信息不一致。

          • 举例:原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

        • 敏感数据类型选中新增类型时:用户需要配置替换字符集

          说明
          • 替换字符集:遇到字符集中的字符,即会被替换为其他相同类型的字符。

          • 使用限制:不支持中文,若需要脱敏的数据不符合字符集范围则不脱敏。

          • 举例:敏感数据脱敏前是0~3的数字和a~d的字母组成,那么脱敏后也会脱敏成在这个范围内的数字和字母。

        掩盖

        掩盖脱敏是对部分信息进行掩盖,将对应位置上的字符用“*”替换,达到脱敏的效果。可选择以下两种方式进行掩盖脱敏:

        • 推荐方式。

          • 只展示前一后一。

          • 只展示前三后二。

          • 只展示前三后四。

        • 自定义:提供了更灵活的配置,可以在前中后三段设置是否脱敏,以及需要脱敏的字符长度,最多可添加10个分段,至少要有1个分段包含剩余位数。

          • 配置处说明:image

            图标

            描述

            可选择位数、剩余位数

            输入范围为[1,100]

            可选择脱敏、不脱敏。

          • 举例

            配置内容

            图示

            脱敏前三位,剩余位数不脱敏。

            image

            脱敏后三位,剩余位数不脱敏。

            image

            前三位与后三位保留,中间所有位数脱敏。

            image

      2. 验证脱敏规则:在样本数据内输入脱敏前的数据,单击脱敏验证,在脱敏效果中返回脱敏后的数据进行展示。

      3. 配置完成后,单击确定,完成数据脱敏规则的创建。

    2. 添加条件:单击添加条件可新增一行配置数据字段的脱敏规则。

      • 字段:选择需要脱敏的来源数据字段。

      • 脱敏规则:选择已创建的脱敏规则。

    3. 输出字段:来源数据脱敏后的输出字段名,与输入字段名一致,但经过脱敏规则处理过的字段会自动转为STRING类型输出。

后续操作

完成来源信息脱敏规则以及去向信息的配置后,可单击右上角的模拟运行,对数据集成任务进行模拟运行,以便查看输出数据结果,是否符合您的需求。