LLM-敏感信息打码(DLC)组件主要用于将敏感信息打码,例如将邮箱地址字符替换成[EMAIL],手机/电话号码替换成[TELEPHONE]或[MOBILEPHONE],身份证号码替换成[IDNUM]。输入的OSS数据文件(JSONL格式,示例)需符合:每一行是一个合法的JSON对象,文件由多行JSON对象组成,整个文件本身不是合法的JSON对象。
支持的计算资源
算法说明
敏感信息包括以下匹配项:
-
手机号码:匹配以下正则表达式的字符串将被替换成
[MOBILEPHONE]。-
r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'
-
r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'
-
r'(?<!\d)(1[3-9]\d{9})(?!\d)'
-
-
座机号码:匹配以下正则表达式的字符串将被替换成
[TELEPHONE]。-
r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'
-
-
邮箱:匹配以下正则表达式的字符串将被替换成
[EMAIL]。-
r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'
-
-
身份证:匹配以下正则表达式的字符串将被替换为
[IDNUM]。-
r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'
-
r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'
-
例如邮箱打码:
|
处理前 当前字段值弹窗显示该字段存储了一段 Select2 Malay 翻译插件的 JavaScript 代码,其中 Author 行包含作者邮箱地址(xxx@gmail.com),属于需要脱敏处理的敏感信息。 |
处理后
|
配置组件
在Designer工作流页面添加LLM-敏感信息打码(DLC)组件,并在界面右侧配置相关参数:
|
参数类型 |
参数 |
是否必选 |
描述 |
默认值 |
|
|
字段设置 |
目标处理字段 |
是 |
要处理的字段名称。 |
无 |
|
|
数据输出OSS目录 |
否 |
处理后数据的OSS存储目录。如果为空,使用工作空间默认路径。 |
无 |
||
|
执行调优 |
多进程个数 |
否 |
设置进程数。 |
8 |
|
|
选择资源组 |
公共资源组 |
否 |
选择节点规格(CPU或GPU实例规格)、节点数量、专有网络。 |
无 |
|
|
专有资源组 |
否 |
选择CPU核数、内存、共享内存、GPU卡数、节点数量。 |
无 |
||
|
最大运行时长 |
否 |
组件最大运行时长,超过这个时间,作业会被kill。 |
无 |
||