DataWorks数据集成单表实时任务支持在来源与去向组件间新增数据脱敏组件,对来源的数据指定字段进行脱敏,并将脱敏后的数据写入目标表。
步骤一:配置单表实时任务
- 新建数据源,详情请参见:数据源管理。 
- 新建数据集成任务,详情请参见:数据集成侧实时同步任务配置。 说明- 当数据集成侧同步任务的同步类型为单表实时,可在数据来源组件与数据去向组件之间新增数据处理组件。详情可参见支持的数据源及同步方案。 
步骤二:添加数据脱敏组件
- 在实时ETL任务编辑页DAG画布中,单击来源与去向组件之间的  按钮,新增选择数据脱敏组件。 按钮,新增选择数据脱敏组件。 
- 配置脱敏规则。 - 新建脱敏规则,创建好数据脱敏组件后,单击组件,在数据脱敏进行脱敏规则的配置,需要新建脱敏规则:单击新建脱敏规则,进入脱敏规则的配置面板,进行脱敏规则的配置。 - 详情说明请参考: - 敏感数据类型,可选择为选择已有或选择新增类型,并设置字段的脱敏方式。以下为脱敏方式的说明。 - 哈希- 哈希可将原始数据加密成固定长度的数据,HASH脱敏方式需要选择安全域。而安全域的脱敏规则不一致,即使相同的待脱敏数据在不同的安全域脱敏后的结果也不一致。 - 举例:原始数据为 - a123,安全域设置为- 0时,脱敏成- b124,安全域设置为- 1时,脱敏成- c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。- 假名- 假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。脱敏后数据和脱敏前数据的格式保持一致。 - 当敏感数据类型选中选择已有时:用户需要配置安全域。 说明- 安全域:可选范围 - 0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏后的结果信息不一致。
- 举例:原始数据为 - a123,安全域设置为- 0时,脱敏成- b124,安全域设置为- 1时,脱敏成- c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。
 
- 当敏感数据类型选中新增类型时:用户需要配置替换字符集。 说明- 替换字符集:遇到字符集中的字符,即会被替换为其他相同类型的字符。 
- 使用限制:不支持中文,若需要脱敏的数据不符合字符集范围则不脱敏。 
- 举例:敏感数据脱敏前是 - 0~3的数字和- a~d的字母组成,那么脱敏后也会脱敏成在这个范围内的数字和字母。
 
 - 掩盖- 掩盖脱敏是对部分信息进行掩盖,将对应位置上的字符用“*”替换,达到脱敏的效果。可选择以下两种方式进行掩盖脱敏: - 推荐方式。 - 只展示前一后一。 
- 只展示前三后二。 
- 只展示前三后四。 
 
- 自定义:提供了更灵活的配置,可以在前、中、后三段设置是否脱敏,以及需要脱敏的字符长度,最多可添加10个分段,至少要有1个分段包含剩余位数。 - 配置处说明:  - 图标 - 描述 - ① - 可选择位数、剩余位数 - ② - 输入范围为[1,100] - ③ - 可选择脱敏、不脱敏。 
- 举例: - 配置内容 - 图示 - 脱敏前三位,剩余位数不脱敏。  - 脱敏后三位,剩余位数不脱敏。  - 前三位与后三位保留,中间所有位数脱敏。  
 
 
- 验证脱敏规则:在样本数据内输入脱敏前的数据,单击脱敏验证,在脱敏效果中返回脱敏后的数据进行展示。 
- 配置完成后,单击确定,完成数据脱敏规则的创建。 
 
- 添加条件:单击添加条件可新增一行配置数据字段的脱敏规则。 - 字段:选择需要脱敏的来源数据字段。 
- 脱敏规则:选择已创建的脱敏规则。 
 
- 输出字段:来源数据脱敏后的输出字段名,与输入字段名一致,但经过脱敏规则处理过的字段会自动转为 - STRING类型输出。
 
后续操作
完成来源信息、脱敏规则以及去向信息的配置后,可单击右上角的模拟运行,对数据集成任务进行模拟运行,以便查看输出数据结果,是否符合您的需求。