LLM-文本标准化组件主要用于大语言模型(LLM)的文本数据预处理工作,可以将文本Unicode标准化以及繁体转简体。
使用限制
仅支持MaxCompute计算引擎。
算法简介
LLM-文本标准化组件支持以下功能:
-
将Unicode文本标准化,使用NFKC的方式标准化文本。
ftfy.fix_text(text, normalization='NFKC') -
繁体转成简体使用opencc包转换。
使用
opencc包转换。
效果如下:
-
处理前:数据表格中包含6行测试数据,列类型为
text,数据包括中英文混合文本、繁简体中文、特殊字符及编码乱码等多种类型的文本内容。 -
处理后:表格共6行数据。第1行:
✔ No problems;第2行:The Mona Lisa doesn't have eyebrows.;第3行:No problems;第4行:阿里巴巴;第5行:这是几个繁体字,会被转换为简体字;第6行:试试繁体afadf字$#@#和简体字,以及各123213*&dasd种不同字符数字的组合转换效果。繁体字已被转换为简体字,英文、数字及特殊字符保持不变。
可视化配置参数
您可以在Designer中,通过可视化的方式配置组件参数。
|
页签 |
参数 |
是否必选 |
描述 |
默认值 |
|
字段设置 |
选择目标处理列 |
是 |
选择要处理的列,支持选择多个列。 |
无 |
|
设置输出表生命周期 |
否 |
正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。 |
28 |
|
|
执行调优 |
每个实例的cpu数目 |
否 |
设定map task每个instance的CPU数目,取值范围为[50,800]。 |
100 |
|
每个实例的memory大小,单位M |
否 |
设定map task每个instance的memory大小,单位为MB,取值范围为[256,12288]。 |
1024 |
|
|
每个实例处理的数据大小,单位M |
否 |
设定map task每个instance的最大处理数据量,用户可以通过控制该变量,实现对map端输入的控制。单位为MB,取值范围为[1,Integer.MAX_VALUE]。 |
256 |
相关文档
关于Designer组件更详细的内容介绍,请参见Designer概述。