数据准备

由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。标注数据指为每一个对话文本中标识类别标签。我们通常鼓励每一个类别的有效标注数据不小于500份。

对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。如果您目前还没有标注数据,也可以选择上传原始文件,通过标注平台进行标注,标注平台的使用见下一节。自行上传的标注数据为JSON格式,且需要符合以下格式,其中对话的内容放在“msgs”中,包含content(说话内容)和role(说话角色),而标签的内容放在“records”中,records 中key为分类任务名称,value 为分类标签,支持同时定义多个分类任务。

{
    "id001": {
        "msgs": [
            {
                "content": "小白,没看出来你乒乓球打得这么好啊!什么时候咱们一起练练?",
                "role": "男"
            },
            {
                "content": "不敢当,不敢当,我还得向您请教呢。",
                "role": "女"
            },
            {
                "content": "女的是什么语气?",
                "role": "问"
            },
            {
                "content": "得意",
                "role": "答"
            }
        ],
        "records": {
            "回答是否正确": "错误"
        }
    }
}

上传文件的入口在刚刚创建好的项目中,数据中心->上传数据集。