全部产品
云市场
云游戏

数据准备

更新时间:2020-04-15 16:02:24

由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。以发票数据的抽取为例,我们试图从一段发票的文本中抽取出发票的供应商、发票号码、金额等实体字段,我们需要准备好一定数目的标注数据供模型学习。标注数据指的是将需要抽取的实体从原始的文本中标识出来,如:从“阿里巴巴达摩院项目合同发票号:188188,转让金额:1000 元人民币。”中提取出金额,我们需要对“100 元人民币”进行标注。我们通常鼓励每一个实体的有效标注数据不小于500 份。

对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。如果您目前还没有标注数据,也可以选择上传原始文件,通过标注平台进行标注,标注平台的使用见下一节。自行上传的标注数据为json 格式,且需要符合以下格式,其中文本的内容放在“content”中,而标签的内容放在“records”中,records 中key 为实体名,value 为标注内容在原文中的偏移量

  1. {
  2. "id_0001": { // 这是该文档在您数据集里的唯一标示
  3. "content": "阿里巴巴集团达摩院的工作地主要有:北京、杭州等",
  4. "records": {
  5. "公司名": [{
  6. "span": "阿里巴巴集团",
  7. "offset": [ //标注字段真实字节的偏移量,首字节的便宜量为0
  8. 0,
  9. 6
  10. ]
  11. }],
  12. "地点": [{
  13. "span": "北京",
  14. "offset": [
  15. 17,
  16. 19
  17. ]
  18. }, {
  19. "span": "杭州",
  20. "offset": [
  21. 20,
  22. 22
  23. ]
  24. }]
  25. }
  26. }
  27. }

上传文件的入口在刚刚创建好的项目中,数据中心->上传数据集。