您可以使用文本打标预测(MaxCompute)快速抽取文本中蕴含的标签,对理解文本语义、精确建模有重要作用。本文为您介绍文本打标预测(MaxCompute)的参数配置和使用示例。

使用限制

支持的计算引擎为MaxCompute,使用前必须开通MaxCompute资源组,并且使用GPU。

可视化配置组件参数

  • 输入桩
    输入桩 数据类型 建议上游组件 是否必选
    测试数据 MaxCompute表 读数据表
  • 组件参数
    页签 参数 描述
    参数设置 Buckets 输入模型和其他配置文件的OSS Buckets路径,取值为STRING类型。
    文本序列号 输入需要打标的文本在输入表中的序列号,从0开始,取值为INT类型。
    是否执行默认实体识别 是否使用PAI默认的模型进行实体识别,取值如下:
    • True
    • False
    默认为False。
    是否执行关键词抽取 是否开启关键词抽取功能,取值如下:
    • True
    • False
    默认为True。
    是否执行默认细粒度标签预测 是否使用PAI默认的模型进行细粒度标签预测,取值如下:
    • True
    • False
    默认为False。
    用户自定义NER模型路径 自定义NER模型的OSS路径,取值为STRING类型。
    用户自定义关键词字典 自定义关键词字典的OSS路径,取值为STRING类型。
    关键词抽取参数Alpha 用于平衡TFIDF和TextRank两个关键词抽取算法的权重。取值为DOUBLE类型,范围(0,1),默认为0.5。
    抽取关键词数 算法抽取关键词数量上限,取值为INT类型,默认为10。
    用户自定义标签预测模型路径 自定义标签预测模型的OSS路径,取值为STRING类型。
    用户自定义标签配置 自定义标签配置的OSS路径,取值为STRING类型。
    标签预测阈值 当标签预测概率大于该阈值时,进行输出。范围(0,1),取值为DOUBLE类型。
    是否输出根节点 是否输出预测的二级类目对应的一级类目,取值如下:
    • True
    • False
    默认为False。
    执行调优 Worker数量 用于计算的分布式服务器的数量,取值为INT类型,默认为1。
    Batch Size 每个Batch的大小,取值为INT类型,默认为16。
    Sequence Length 文本序列长度,取值为INT类型,默认为128。
  • 输出桩
    输出桩 数据类型 建议下游组件 是否必选
    预测结果表 MaxCompute表 写数据表

使用示例

您可以使用文本打标预测组件构建如下工作流。工作流本示例中,您需要按照以下流程配置组件:
  1. 使用读数据表-1组件读取测试数据集,即配置读数据表组件的表名参数为存放测试数据集的表名。
  2. 将测试数据集接入文本打标预测组件,并配置具体参数,详情请参见上文的可视化配置组件参数