LLM-敏感信息打码(DLC)组件主要用于将敏感信息打码,例如将邮箱地址字符替换成[EMAIL],手机/电话号码替换成[TELEPHONE]或[MOBILEPHONE],身份证号码替换成[IDNUM]。输入的OSS数据文件(JSONL格式,示例)需符合:每一行是一个合法的JSON对象,文件由多行JSON对象组成,整个文件本身不是合法的JSON对象。
支持的计算资源
算法说明
敏感信息包括以下匹配项:
手机号码:匹配以下正则表达式的字符串将被替换成
[MOBILEPHONE]
。r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'
r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'
r'(?<!\d)(1[3-9]\d{9})(?!\d)'
座机号码:匹配以下正则表达式的字符串将被替换成
[TELEPHONE]
。r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'
邮箱:匹配以下正则表达式的字符串将被替换成
[EMAIL]
。r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'
身份证:匹配以下正则表达式的字符串将被替换为
[IDNUM]
。r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'
r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'
例如邮箱打码:
处理前 | 处理后 |
配置组件
在Designer工作流页面添加LLM-敏感信息打码(DLC)组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 是否必选 | 描述 | 默认值 | |
字段设置 | 目标处理字段 | 是 | 要处理的字段名称。 | 无 | |
数据输出OSS目录 | 否 | 处理后数据的OSS存储目录。如果为空,使用工作空间默认路径。 | 无 | ||
执行调优 | 多进程个数 | 否 | 设置进程数。 | 8 | |
选择资源组 | 公共资源组 | 否 | 选择节点规格(CPU或GPU实例规格)、节点数量、专有网络。 | 无 | |
专有资源组 | 否 | 选择CPU核数、内存、共享内存、GPU卡数、节点数量。 | 无 | ||
最大运行时长 | 否 | 组件最大运行时长,超过这个时间,作业会被kill。 | 无 |