LLM-敏感信息打码(DLC)

LLM-敏感信息打码(DLC)组件主要用于将敏感信息打码,例如将邮箱地址字符替换成[EMAIL],手机/电话号码替换成[TELEPHONE]或[MOBILEPHONE],身份证号码替换成[IDNUM]。输入的OSS数据文件(JSONL格式,示例)需符合:每一行是一个合法的JSON对象,文件由多行JSON对象组成,整个文件本身不是合法的JSON对象。

支持的计算资源

DLC

算法说明

敏感信息包括以下匹配项:

  • 手机号码:匹配以下正则表达式的字符串将被替换成[MOBILEPHONE]

    • r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'

    • r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'

    • r'(?<!\d)(1[3-9]\d{9})(?!\d)'

  • 座机号码:匹配以下正则表达式的字符串将被替换成[TELEPHONE]

    • r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'

  • 邮箱:匹配以下正则表达式的字符串将被替换成[EMAIL]

    • r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'

  • 身份证:匹配以下正则表达式的字符串将被替换为[IDNUM]

    • r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'

    • r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'

例如邮箱打码:

处理前

image

处理后

image

配置组件

Designer工作流页面添加LLM-敏感信息打码(DLC)组件,并在界面右侧配置相关参数:

参数类型

参数

是否必选

描述

默认值

字段设置

目标处理字段

要处理的字段名称。

数据输出OSS目录

处理后数据的OSS存储目录。如果为空,使用工作空间默认路径。

执行调优

多进程个数

设置进程数。

8

选择资源组

公共资源组

选择节点规格(CPUGPU实例规格)、节点数量、专有网络。

专有资源组

选择CPU核数、内存、共享内存、GPU卡数、节点数量。

最大运行时长

组件最大运行时长,超过这个时间,作业会被kill。