LLM-扩展LaTeX宏定义组件主要用于大语言模型(LLM)的文本数据预处理工作,适用于TEX文档格式数据。主要功能是内联扩展所有无参数的宏,宏如果由字母和数字组成且没有参数,则将宏的名称替换成宏的值。
支持的计算资源
算法说明
LLM-扩展LaTeX宏定义组件内联扩展所有无参数的宏,正则表达式如下:
|
对比项 |
不带参数的\newcommand宏 |
不带参数的\def宏 |
|
正则表达式 |
|
|
|
正则表达式匹配的内容 |
|
|
|
说明 |
macro_name只允许包含字母和数字,macro_value可以包含任何字符 |
|
提取所有满足上述正则表达式的字符串,将macro_name替换为macro_value。示例如下:
|
处理前
|
处理后 处理后,
|
配置组件
在Designer工作流页面添加LLM-扩展LaTeX宏定义组件,并在界面右侧配置相关参数:
|
参数类型 |
参数 |
描述 |
|
字段设置 |
选择目标处理列 |
选择要处理的列,支持多选。 |
|
设置输出表生命周期 |
正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。 |
|
|
执行调优 |
每个实例的cpu数目 |
设定map task每个instance的CPU数目,取值范围:50~800,默认值:100。 |
|
每个实例的memory大小,单位M |
设定map task每个instance的memory大小,取值范围:256~12288,默认值:1024,单位:MB。 |
|
|
每个实例处理的数据大小,单位M |
设定map task每个instance的最大处理数据量,取值范围:1~Integer.MAX_VALUE,默认值:256,单位:MB。 您可以通过控制这个变量,从而达到对map端输入的控制。 |