为合同要素抽取准备JSON格式的标注数据-自然语言处理-阿里云

由于模型需要通过标注数据来从中学习规律，因此我们首先要准备好一个标注数据集。标注数据指的是将需要抽取的实体从原始的文本中标识出来，如：从“项目法人委托质量检测合同合同编号： JSZH20200048 工程名称：工程及综合整治项目委托方：园街道办事处”中提取出合同编号，我们需要对“JSZH20200048”进行标注。我们通常鼓励每一个实体的有效标注数据不小于500份。

对于用户已经积累了一部分标注数据的情况，我们需要您按照自学习平台所支持的输入格式进行组织，并且上传。如果您目前还没有标注数据，也可以选择上传原始文件，通过标注平台进行标注，标注平台的使用见下一节。自行上传的标注数据为JSON格式，且需要符合以下格式，其中文本的内容放在“content”中，而标签的内容放在“records”中，records 中key 为实体名，value 为标注内容在原文中的偏移量

{
  "id001": {
    "content": "项目法人委托质量检测合同\n合同编号： JSZH20200048 \n工程名称：工程及综合整治项目 \n委 托 方：园街道办事处 ",
    "records": {
      "委托方": [
        {
          "span": "园街道办事处",
          "offset": [
            55,
            61
          ]
        }
      ],
      "合同编号": [
        {
          "span": "JSZH20200048",
          "offset": [
            19,
            31
          ]
        }
      ]
    }
  }
}

上传文件的入口在刚刚创建好的项目中，数据中心->上传数据集。