LLM-文本质量打分和语种识别组件说明_人工智能平台 PAI(PAI)-阿里云帮助中心

LLM-语种识别和过滤组件主要用于大语言模型（LLM）的文本数据预处理工作，识别文本的语种并计算得分，并可以根据语种和得分过滤样本。

使用限制

仅支持MaxCompute计算引擎。

算法简介

使用fasttext算法识别文本语种并计算置信度，目前支持识别176种语言。包括：

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh']。

可视化配置参数

您可以在Designer中，通过可视化的方式配置组件参数。

页签	参数	是否必选	描述	默认值
字段设置	选择目标处理列	是	选择要处理的列。	无
	是否保存语种名称和置信度	否	是否将语种名称和置信度保存到输出表中。如果勾选，则在输出表中新增两列用来存储计算结果；否则不做存储。语种名称保存列名：保存语种名称的列名，默认值为language_id。语种置信度保存列名：保存语种置信度的列名，默认值为language_score。	无
	SQL脚本	否	where语句填写，语种名称默认保存到`language_id`列，置信度默认保存到`language_score`列，可根据这两列的结果进行过滤。例如：`where language_id = 'en' and language_score >= 0.8`。如果保存语种结果并修改了列名，请根据修改后的列名填写。	无
	设置输出表生命周期	否	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。	28
执行调优	每个实例的cpu数目	否	设定map task每个instance的CPU数目，取值范围为[50,800]。	100
	每个实例的memory大小，单位M	否	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。	1024
	每个实例处理的数据大小，单位M	否	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。	256

LLM-文本质量打分和语种识别（MaxCompute）

使用限制

算法简介

可视化配置参数

相关文档