LLM-删除LaTeX注释行组件主要用于大语言模型(LLM)的文本数据预处理工作,适用于TEX文档格式数据。主要功能是删除LaTeX格式文本中的注释行以及行内注释。
支持的计算资源
算法说明
定义LaTeX格式文本注释行的正则表达式如下:
注释类型 | 正则表达式 |
多行注释 |
|
单行注释 |
|
提取所有满足上述正则表达式的字符串,替换为空字符串。示例如下:
处理前 | 处理后 |
配置组件
在Designer工作流页面添加LLM-删除LaTeX注释行组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 描述 |
字段设置 | 选择目标处理列 | 选择要处理的列,支持多选。 |
是否删除所有行注释 | 是否删除所有的注释行。 | |
是否删除一行内的所有注释 | 是否删除一行内的所有注释。 | |
设置输出表生命周期 | 正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。 | |
执行调优 | 每个实例的cpu数目 | 设定map task每个instance的CPU数目,取值范围:50~800,默认值:100。 |
每个实例的memory大小,单位M | 设定map task每个instance的memory大小,取值范围:256~12288,默认值:1024,单位:MB。 | |
每个实例处理的数据大小,单位M | 设定map task每个instance的最大处理数据量,取值范围:1~Integer.MAX_VALUE,默认值:256,单位:MB。 您可以通过控制这个变量,从而达到对map端输入的控制。 |
文档内容是否对您有帮助?