PAI提供了文本分类标注模板,本文为您介绍其应用场景及数据结构。

文本分类

文本分类(Text Classification)是指在一组固定的分类标签集合中,找到与输入文本内容相匹配的一个或多个分类标签,并将其分配给该输入文本。该分类模板支持单标签和多标签。

  • 应用场景

    新闻推荐、知识管理及垃圾信息过滤等。

  • 数据结构
    • 输入数据
      manifest文件的每行数据是一道题目,且每行数据必须包含content字段。
      {"data":{"content":"欢迎使用机器学习PAI!"}}
    • 输出数据
      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
      {
        "data": {
          "content": "欢迎使用机器学习PAI!"
        },
        "label-p9fypszvupm9bh****": {
          "results": [{
            "data": [{
              "data": "积极内容",
              "id": 112****,
              "type": "survey/value"
            }],
            "id": "112****",
            "type": "survey"
          }]
        }
      }