DataWorks数据集成实时ETL支持数据脱敏组件使用,可以在来源与去向组件间新增数据脱敏组件,对来源的数据指定字段进行脱敏写入去向数据源当中。
前提条件
已完成数据集成的基本配置与网络资源配置。
数据集成的同步类型为单表实时。
步骤一:配置数据集成任务
新建数据源,详情请参见:创建并管理数据源。
新建数据集成任务,详情请参见:数据集成侧同步任务。
说明当数据集成侧同步任务的同步类型为单表实时,可在数据来源组件与数据去向组件之间新增数据处理组件。详情可参见支持的数据源及同步方案。
步骤二:添加数据脱敏组件
在实时ETL任务编辑页DAG画布中,单击来源与去向组件之间的按钮,新增选择数据脱敏组件。
配置脱敏规则。
新建脱敏规则,创建好数据脱敏组件后,单击组件,在数据脱敏进行脱敏规则的配置,需要新建脱敏规则:单击新建脱敏规则,进入脱敏规则的配置面板,进行脱敏规则的配置。详情说明请参考:
敏感数据类型,可选择为选择已有或选择新增类型,以下为脱敏方式的说明。
哈希
哈希可将原始数据加密成固定长度的数据,HASH脱敏方式需要选择安全域。而安全域的脱敏规则不一致,即使相同的待脱敏数据在不同的安全域脱敏后的结果也不一致。
举例:原始数据为
a123
,安全域设置为0
时,脱敏成b124
,安全域设置为1
时,脱敏成c234
。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。假名
假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。脱敏后数据和脱敏前数据的格式保持一致。
当敏感数据类型选中选择已有时:用户需要配置安全域。
说明安全域:可选范围
0~9
,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏后的结果信息不一致。举例:原始数据为
a123
,安全域设置为0
时,脱敏成b124
,安全域设置为1
时,脱敏成c234
。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。
当敏感数据类型选中新增类型时:用户需要配置替换字符集。
说明替换字符集:遇到字符集中的字符,即会被替换为其他相同类型的字符。
使用限制:不支持中文,若需要脱敏的数据不符合字符集范围则不脱敏。
举例:敏感数据脱敏前是
0~3
的数字和a~d
的字母组成,那么脱敏后也会脱敏成在这个范围内的数字和字母。
掩盖
掩盖脱敏是对部分信息进行掩盖,将对应位置上的字符用“*”替换,达到脱敏的效果。可选择以下两种方式进行掩盖脱敏:
推荐方式。
只展示前一后一。
只展示前三后二。
只展示前三后四。
自定义:提供了更灵活的配置,可以在前中后三段设置是否脱敏,以及需要脱敏的字符长度,最多可添加10个分段,至少要有1个分段包含剩余位数。
配置处说明:
图标
描述
①
可选择位数、剩余位数
②
输入范围为[1,100]
③
可选择脱敏、不脱敏。
举例:
配置内容
图示
脱敏前三位,剩余位数不脱敏。
脱敏后三位,剩余位数不脱敏。
前三位与后三位保留,中间所有位数脱敏。
验证脱敏规则:在样本数据内输入脱敏前的数据,单击脱敏验证,在脱敏效果中返回脱敏后的数据进行展示。
配置完成后,单击确定,完成数据脱敏规则的创建。
添加条件:单击添加条件可新增一行配置数据字段的脱敏规则。
字段:选择需要脱敏的来源数据字段。
脱敏规则:选择已创建的脱敏规则。
输出字段:来源数据脱敏后的输出字段名,与输入字段名一致,但经过脱敏规则处理过的字段会自动转为
STRING
类型输出。
后续操作
完成来源信息、脱敏规则以及去向信息的配置后,可单击右上角的模拟运行,对数据集成任务进行模拟运行,以便查看输出数据结果,是否符合您的需求。