阿里云首页 自然语言处理

数据准备

由于模型需要通过标注数据来从中学习规律,我们首先要准备好一个标注数据集。以商品评价解析-分类任务为例,我们的每一条数据为一个(文本,属性维度-情感倾向)对。情感倾向一共有四种不同的类别:“正”,“中”,“负”,“未提及”(可省略)。对于每一个不同的类别,我们建议至少准备 100 条训练数据再进行测试。训练数据需要按照 NLP 自学习平台定义好的格式进行处理,以 json 为例,您需要将每一条数据处理成如下格式:

  1. {
  2. "1": {
  3. "content": "挺好的 买来太多了。 我自己拿刀改了。还是一样好看",
  4. "records": {
  5. "整体": [
  6. "正"
  7. ],
  8. "外观设计": [
  9. "正"
  10. ]
  11. }
  12. }
  13. }

文本的内容放在“content”中,而标签的内容放在“records”中,其中content只支持string类型,records字段是一个对象类型。records字段的key代表了属性维度,只支持string类型;value代表具体的情感倾向标签,只支持string类型(如“正”、“中”、“负”、“未提及”),其中“未提及”可以省略。