LLM-删除LaTeX文档头(MaxCompute)

LLM-删除LaTeX文档头组件主要用于大语言模型(LLM)的文本数据预处理工作,适用于TEX文档格式数据。主要功能是找到第一个匹配<section-type>[optional-args]{name}章节格式的字符串,并将其之前的所有内容删除,保留第一个匹配到章节后的所有内容,包括该章节标题。

支持的计算资源

MaxCompute

算法说明

定义LaTeX格式文本章节的正则表达式为:r'^(.*?)(\\\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\})'(多个匹配字段用“|”分隔)。

定位到满足上述正则表达式的第一个字符串,将其之前的所有内容删除,保留第一个匹配到章节后的所有内容,包括该章节标题。示例如下:

处理前

image

处理后

image

配置组件

Designer工作流页面添加LLM-删除LaTeX文档头(MaxCompute)组件,并在界面右侧配置相关参数:

参数类型

参数

描述

字段设置

选择目标处理列

选择要处理的列,支持多选。

是否删除没有匹配到章节格式的样本

如果勾选此选项,如果样本没有匹配到任何章节格式,则删除该样本。

设置输出表生命周期

正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。

执行调优

每个实例的cpu数目

设定map task每个instanceCPU数目,取值范围:50~800,默认值:100。

每个实例的memory大小,单位M

设定map task每个instancememory大小,取值范围:256~12288,默认值:1024,单位:MB。

每个实例处理的数据大小,单位M

设定map task每个instance的最大处理数据量,取值范围:1~Integer.MAX_VALUE,默认值:256,单位:MB。

您可以通过控制这个变量,从而达到对map端输入的控制。