文档

数据标注

更新时间:

除了以上的通过 JSON文件来创建数据集的方式,如果您暂时没有标注数据,也可以通过我们的标注平台来标注数据。

接下来,通过一个例子来演示标注平台的使用。进入到项目后,点击“创建标注任务”,可以看到如下画面

注意:目前仅支持UTF-8编码方式的数据文件

image

在这里我们使用Excel的方式来上传文件,具体格式参考上面我们提供的数据,然后点击下一步。

并且我们可以通过预处理规则配置:去除url、去除emoji、大写转小写、繁体转简体,帮助我们处理文本里面的无用信息。

image

在这里我们选择分类类型支持单选分类和多选分类,多选分类:每个题目,可以选择多个答案;单元分类:每个题目,只能选择一个答案。

点击添加题目,我们可以添加我们的分类标签。

手动配置支持添加分类名称和类别标签,类别标签支持最多5层标签,同级别标签不限制添加个数。

image

同时,我们也支持通过Excel导入的形式来上传标签,上传的示例文件可以参考我们的模板信息。

image

之后返回到数据中心,点击标注即可标注数据,标注完成后,就得到了一个标注的数据集。

image

当构建好数据集后,模型就可以开始学习。需要知道的是模型所有的知识都来源于您输入的这个数据集,它不具备任何的先验知识。模型做出的所有判断都是依据从这个训练数据集中学到的知识,因此它不可能做出它认知外的判断。

比如您的训练集中都是中文数据,那么训练得到的模型就不太能对英文数据做出准确的识别。再比如您的训练数据中只有“正”,“负”两种情感类型,那么它对中立情感的评论输出也不会为“中”,因为在模型的认知里,它只见过“正”,“负”这两种类别,无论您输入什么文本,模型都只能从这两者之中二选一。

  • 本页导读 (0)
文档反馈