LLM-特殊内容移除组件主要用于大语言模型(LLM)的文本数据预处理工作,可以移除文本中的特殊内容,例如文章中的导航信息、作者信息、文章来源信息、URL链接、不可见字符、去除HTML格式字符并解析出HTML文本等。
使用限制
仅支持MaxCompute计算引擎。
算法简介
LLM-特殊内容移除组件支持以下功能:
首先使用换行符将文本切分为多行。
去除文章中的导航信息
导航信息关键字包括:
'首页>'
、'主页>'
、'首页»'
、'首页/'
、'首页|'
。导航信息正则表达式:
'当前位置:.*[>]{1,}'
、'的位置:.*[>]{1,}'
。删除包含上述关键字或匹配上正则表达式的文本行。
去除文章中的作者信息
如果文本中包含如下某个关键字,同时必须包含至少一个标点符号
'.?!;:。?!;,,!'
,则删除该行。作者信息关键字包括:
'本报记者 '
、'来源:'
、'编辑:'
、'登录|注册'
、'本文地址:'
、'发表日期:'
、'添加时间:'
、'分享到:'
、'“扫一扫”'
、'相关链接:'
、'时时彩'
、'网站导航 '
、'| 联系我们'
、'首页 '
、'当前所在位置:'
、'发布于 '
、'所在位置: '
。
去除文章来源信息
文章来源正则表达式包括:
r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})'
,r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[来源:|编辑:]'
。只在前五行匹配上述正则表达式。删除前五行中匹配上正则表达式的文本行。
说明如果选择上述的“去除文章中的导航信息”和“去除文章中的作者信息”,则前五行是处理之后的五行,不是原始数据的前五行。
去除URL链接
删除文本中匹配正则表示式
r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'
的字符。去除不可见字符
删除文本中匹配正则表示式
'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'
的字符。去除HTML格式字符并解析出HTML文本
将文本中的
'<li>'
替换成'\n*'
,'<ol>'
替换成'\n*'
,并删除'</li>'
和'</ol>'
字符。最后解析HTML文本并返回。
例如去除文章中的URL链接:
处理前:
处理后:
可视化配置参数
您可以在Designer中,通过可视化的方式配置组件参数。
页签 | 参数 | 是否必选 | 描述 | 默认值 |
字段设置 | 选择目标处理列 | 是 | 选择要处理的列,支持选择多个列。 | 无 |
设置输出表生命周期 | 否 | 正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。 | 28 | |
执行调优 | 每个实例的cpu数目 | 否 | 设定map task每个instance的CPU数目,取值范围为[50,800]。 | 100 |
每个实例的memory大小,单位M | 否 | 设定map task每个instance的memory大小,单位为MB,取值范围为[256,12288]。 | 1024 | |
每个实例处理的数据大小,单位M | 否 | 设定map task每个instance的最大处理数据量,用户可以通过控制该变量,实现对map端输入的控制。单位为MB,取值范围为[1,Integer.MAX_VALUE]。 | 256 |
相关文档
关于Designer组件更详细的内容介绍,请参见Designer概述。