您可以使用文本打标预测(MaxCompute)快速抽取文本中蕴含的标签,对理解文本语义、精确建模有重要作用。本文为您介绍文本打标预测(MaxCompute)的参数配置和使用示例。
使用限制
支持的计算引擎为MaxCompute,使用前必须开通MaxCompute资源组,并且使用GPU。
可视化配置组件参数
- 输入桩
输入桩 数据类型 建议上游组件 是否必选 测试数据 MaxCompute表 读数据表 是 - 组件参数
页签 参数 描述 参数设置 Buckets 输入模型和其他配置文件的OSS Buckets路径,取值为STRING类型。 文本序列号 输入需要打标的文本在输入表中的序列号,从0开始,取值为INT类型。 是否执行默认实体识别 是否使用PAI默认的模型进行实体识别,取值如下: - True
- False
是否执行关键词抽取 是否开启关键词抽取功能,取值如下: - True
- False
是否执行默认细粒度标签预测 是否使用PAI默认的模型进行细粒度标签预测,取值如下: - True
- False
用户自定义NER模型路径 自定义NER模型的OSS路径,取值为STRING类型。 用户自定义关键词字典 自定义关键词字典的OSS路径,取值为STRING类型。 关键词抽取参数Alpha 用于平衡TFIDF和TextRank两个关键词抽取算法的权重。取值为DOUBLE类型,范围(0,1),默认为0.5。 抽取关键词数 算法抽取关键词数量上限,取值为INT类型,默认为10。 用户自定义标签预测模型路径 自定义标签预测模型的OSS路径,取值为STRING类型。 用户自定义标签配置 自定义标签配置的OSS路径,取值为STRING类型。 标签预测阈值 当标签预测概率大于该阈值时,进行输出。范围(0,1),取值为DOUBLE类型。 是否输出根节点 是否输出预测的二级类目对应的一级类目,取值如下: - True
- False
执行调优 Worker数量 用于计算的分布式服务器的数量,取值为INT类型,默认为1。 Batch Size 每个Batch的大小,取值为INT类型,默认为16。 Sequence Length 文本序列长度,取值为INT类型,默认为128。 - 输出桩
输出桩 数据类型 建议下游组件 是否必选 预测结果表 MaxCompute表 写数据表 否
使用示例
您可以使用文本打标预测组件构建如下工作流。
本示例中,您需要按照以下流程配置组件:

- 使用读数据表-1组件读取测试数据集,即配置读数据表组件的表名参数为存放测试数据集的表名。
- 将测试数据集接入文本打标预测组件,并配置具体参数,详情请参见上文的可视化配置组件参数。