文档

LLM-特殊内容移除(MaxCompute)

更新时间:

LLM-特殊内容移除组件主要用于大语言模型(LLM)的文本数据预处理工作,可以移除文本中的特殊内容,例如文章中的导航信息、作者信息、文章来源信息、URL链接、不可见字符、去除HTML格式字符并解析出HTML文本等。

使用限制

仅支持MaxCompute计算引擎。

算法简介

LLM-特殊内容移除组件支持以下功能:

首先使用换行符将文本切分为多行。

  • 去除文章中的导航信息

    • 导航信息关键字包括:'首页>''主页>''首页»''首页/''首页|'

    • 导航信息正则表达式:'当前位置:.*[>]{1,}''的位置:.*[>]{1,}'

    • 删除包含上述关键字或匹配上正则表达式的文本行。

  • 去除文章中的作者信息

    如果文本中包含如下某个关键字,同时必须包含至少一个标点符号'.?!;:。?!;,,!',则删除该行。

    作者信息关键字包括:'本报记者 ''来源:''编辑:''登录|注册''本文地址:''发表日期:''添加时间:''分享到:''“扫一扫”''相关链接:''时时彩''网站导航 ''| 联系我们''首页 ''当前所在位置:''发布于 ''所在位置: '

  • 去除文章来源信息

    文章来源正则表达式包括:r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})'r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[来源:|编辑:]'

    只在前五行匹配上述正则表达式。删除前五行中匹配上正则表达式的文本行。

    说明

    如果选择上述的“去除文章中的导航信息”和“去除文章中的作者信息”,则前五行是处理之后的五行,不是原始数据的前五行。

  • 去除URL链接

    删除文本中匹配正则表示式r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字符。

  • 去除不可见字符

    删除文本中匹配正则表示式'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'的字符。

  • 去除HTML格式字符并解析出HTML文本

    将文本中的'<li>'替换成'\n*''<ol>'替换成'\n*',并删除'</li>''</ol>'字符。最后解析HTML文本并返回。

例如去除文章中的URL链接:

  • 处理前:

    image

  • 处理后:

    image

可视化配置参数

您可以在Designer中,通过可视化的方式配置组件参数。

页签

参数

是否必选

描述

默认值

字段设置

选择目标处理列

选择要处理的列,支持选择多个列。

设置输出表生命周期

正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。

28

执行调优

每个实例的cpu数目

设定map task每个instance的CPU数目,取值范围为[50,800]。

100

每个实例的memory大小,单位M

设定map task每个instance的memory大小,单位为MB,取值范围为[256,12288]。

1024

每个实例处理的数据大小,单位M

设定map task每个instance的最大处理数据量,用户可以通过控制该变量,实现对map端输入的控制。单位为MB,取值范围为[1,Integer.MAX_VALUE]。

256

相关文档

关于Designer组件更详细的内容介绍,请参见Designer概述