数据准备

由于模型需要通过标注数据来从中学习规律,我们首先要准备好一个标注数据集。以商品评价解析-分类任务为例,我们的每一条数据为一个(文本,属性维度-情感倾向)对。情感倾向一共有四种不同的类别:“正”,“中”,“负”,“未提及”(可省略)。对于每一个不同的类别,我们建议至少准备 100 条训练数据再进行测试。训练数据需要按照NLP自学习平台定义好的格式进行处理,以JSON为例,您需要将每一条数据处理成如下格式:

{
    "1":  {
        "content": "挺好的 买来太多了。 我自己拿刀改了。还是一样好看",
        "records": {
          "整体": [
            "正"
          ],
          "外观设计": [
            "正"
          ]
        }
      }
}

文本的内容放在“content”中,而标签的内容放在“records”中,其中content只支持string类型,records字段是一个对象类型。records字段的key代表了属性维度,只支持string类型;value代表具体的情感倾向标签,只支持string类型(如“正”、“中”、“负”、“未提及”),其中“未提及”可以省略。