由于模型需要通过标注数据来从中学习规律,我们首先要准备好一个标注数据集。以商品评价解析-分类任务为例,我们的每一条数据为一个(文本,属性维度-情感倾向)对。情感倾向一共有四种不同的类别:“正”,“中”,“负”,“未提及”(可省略)。对于每一个不同的类别,我们建议至少准备 100 条训练数据再进行测试。训练数据需要按照NLP自学习平台定义好的格式进行处理,以JSON为例,您需要将每一条数据处理成如下格式:
{
"1": {
"content": "挺好的 买来太多了。 我自己拿刀改了。还是一样好看",
"records": {
"整体": [
"正"
],
"外观设计": [
"正"
]
}
}
}
文本的内容放在“content”中,而标签的内容放在“records”中,其中content只支持string类型,records字段是一个对象类型。records字段的key代表了属性维度,只支持string类型;value代表具体的情感倾向标签,只支持string类型(如“正”、“中”、“负”、“未提及”),其中“未提及”可以省略。
文档内容是否对您有帮助?