LLM-文本质量打分（FastText）组件说明_人工智能平台 PAI(PAI)-阿里云帮助中心

备案控制台

输入文档关键字查找

LLM-文本质量打分（FastText）组件主要用于大语言模型（LLM）的文本数据预处理工作，使用FastText模型对文本进行质量打分，并根据得分过滤样本。

使用限制

仅支持MaxCompute计算引擎。

算法简介

使用FastText模型识别文本的质量，返回label id和置信度。支持batch推理。

可视化配置参数

您可以在Designer中，通过可视化的方式配置组件参数。

页签	参数	是否必选	描述	默认值
字段设置	选择目标处理列	是	选择要处理的列。	无
	全局唯一字段列	是	该列的值必须是全局唯一。	无
	将所有样本切分成多少组	否	控制groupby的分组数使得每一批记录默认在指定级别左右。	10000
	是否保存质量标签和置信度	否	是否将质量结果保存到输出表中。如果勾选，则在输出表中新增两列用来存储计算结果；否则不做存储。质量标签保存列名：可选，保存质量标签的列名，该列的值为0或1，默认列名为quality_label。置信度保存列名：可选，保存质量置信度的列名，该列值为0~1之间的浮点类型值，默认列名为quality_score。	无
	SQL脚本	否	where语句填写，质量标签默认保存到quality_label列，置信度默认保存到quality_score列，可根据这两列的结果进行过滤。例如：`where quality_label = 1 and quality_score >= 0.8`。如果保存结果并修改了列名，请根据修改后的列名填写。	无
	设置输出表生命周期	否	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。	28
执行调优	每个实例的cpu数目	否	设定map task每个instance的CPU数目，取值范围为[50,800]。	100
	每个实例的memory大小，单位M	否	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。	1024
	每个实例处理的数据大小，单位M	否	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。	256

相关文档

关于Designer组件更详细的内容介绍，请参见Designer概述。

上一篇：LLM-文章内句子去重（MaxCompute）下一篇：LLM-文章相似度去重（MaxCompute）

文档内容是否对您有帮助？