文本分类预测(MaxCompute)

更新时间: 2023-10-31 17:54:46

文本分类预测(MaxCompute)用来加载训练好的模型,对输入数据表进行预测,并产出预测结果。该组件可以和文本分类训练(MaxCompute)组合使用。本文为您介绍文本分类预测(MaxCompute)组件的参数配置和使用示例。

前提条件

使用限制

  • Designer提供该算法组件。

  • 仅支持使用MaxCompute的计算资源。

可视化配置组件参数

  • 输入桩

    输入桩(从左到右)

    限制数据类型

    建议上游组件

    是否必选

    测试数据

    ODPS

    读数据表

    模型输出checkpoint

    OSS

    文本分类训练(MaxCompute)

  • 组件参数

    页签

    参数

    描述

    参数设置

    第一文本列选择

    第一个文本序列在输入格式中对应的列名,STRING类型。

    输出列

    选择输出数据中需要哪几个预测值,STRING类型。格式为:featname1, featname2,多个预测值之间使用半角逗号(,)分隔。默认值为:predictions,probabilities,logits

    根据不同的模型预测类型输出不同的预测结果,对应关系如下。

    • predictions:对单标签模型而言,输出相应模型预测类型的ID,其中ID与训练时的标签枚举值顺序对应。 对于多标签模型而言,输出multi-hot(即多标签分类情况)的向量,多个向量间以半角逗号(,)分隔。

    • probabilities:输出每一个类的概率,多个概率值以半角逗号(,)分隔。

    • logits:输出每一个类的概率,多个概率值以半角逗号(,)分隔。

    预测概率截断

    预测的概率截断阈值,DOUBLE类型。

    附加列

    用户输入表中添加到输出的列,STRING类型。

    batch Size

    特征提取的批大小,INT类型,默认值为32。

    使用自定义模型

    是否使用自定义模型,支持以下取值:

    • :默认值。自动拉取上游组件导出的模型。否则需要手动填写导出模型地址。

    • :需要手动填写导出模型地址,即配置Checkpoint路径

    执行调优

    指定Worker数

    用于计算的Worker数量,INT类型,默认值为1。

    指定Worker的CPU卡数

    每个Worker中的CPU核数量,INT类型,默认值为1。

    指定Worker的GPU卡数

    每个Worker中的GPU卡数量,INT类型,默认为1。

  • 输出桩

    输出桩

    限制数据类型

    建议下游组件

    是否必选

    预测结果表

    ODPS

    写数据表

使用示例

您可以使用文本分类预测(MaxCompute)组件构建如下工作流。工作流本示例中,您需要按照以下流程配置组件:

  1. 使用读数据表-1读数据表-2组件分别读取训练数据集和测试数据集。即配置读数据表组件的表名参数为存放训练数据集和测试数据集的表名。

  2. 通过文本分类训练(MaxCompute)构建模型。

  3. 使用读数据表-3组件读取测试数据集,即配置读数据表组件的表名参数为存放测试数据集的表名。

  4. 将测试数据集和模型接入文本分类预测(MaxCompute)组件,并配置具体参数,详情请参见上文的可视化配置组件参数

阿里云首页 人工智能平台 PAI 相关技术圈