商品评价解析的训练数据准备与格式要求-自然语言处理-阿里云

由于模型需要通过标注数据来从中学习规律，我们首先要准备好一个标注数据集。以商品评价解析-分类任务为例，我们的每一条数据为一个（文本，属性维度-情感倾向）对。情感倾向一共有四种不同的类别：“正”，“中”，“负”，“未提及”（可省略）。对于每一个不同的类别，我们建议至少准备 100 条训练数据再进行测试。训练数据需要按照NLP自学习平台定义好的格式进行处理，以JSON为例，您需要将每一条数据处理成如下格式：

{
    "1":  {
        "content": "挺好的 买来太多了。 我自己拿刀改了。还是一样好看",
        "records": {
          "整体": [
            "正"
          ],
          "外观设计": [
            "正"
          ]
        }
      }
}

文本的内容放在“content”中，而标签的内容放在“records”中，其中content只支持string类型，records字段是一个对象类型。records字段的key代表了属性维度，只支持string类型；value代表具体的情感倾向标签，只支持string类型（如“正”、“中”、“负”、“未提及”），其中“未提及”可以省略。