文档

数据准备

更新时间:

文本关系抽取-数据准备。

由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。以人物关系的抽取为例,我们试图从一段文本中抽取出不同人物之间的关系,我们需要准备好一定数目的标注数据供模型学习。标注数据指的是将需要抽取的实体以及实体关系从原始的文本中标识出来,如:从“小橙和小云同一天加入了阿里巴巴达摩院。”中提取出人物及人物关系,我们需要对“小橙”、“小云”进行标注,并标注两人之间的关系实体“同事”。我们通常鼓励每一个实体的有效标注数据不小于500 份。

对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。如果您目前还没有标注数据,也可以选择上传原始文件,通过标注平台进行标注,标注平台的使用见下一节。自行上传的标注数据为json 格式,且需要符合以下格式,其中文本的内容放在“content”中,而实体标签的内容放在“records”中,records 中key 为实体名,value 为标注内容在原文中的偏移量,实体关系的内容放在“relations”中;

{
    "id": "1", // 这是该文档在您数据集里的唯一标示
    "content": "阿里巴巴马云来苏州游玩。", 
    "records": {
        "LOC": [
            {
                "span": "苏州", 
                "index": "T3", 
                "offset": [ //标注字段真实字节的偏移量,首字节的偏移量为0。
                    8, 
                    10
                ]
            }
        ], 
        "ORG": [
            {
                "span": "阿里巴巴", 
                "index": "T1", 
                "offset": [
                    0, 
                    4
                ]
            }
        ], 
        "PER": [
            {
                "span": "马云", 
                "index": "T2", 
                "offset": [
                    4, 
                    6
                ]
            }
        ], 
        "relations": {
            "Parent": [
                {
                    "index": "R1", 
                    "from": "T1", 
                    "to": "T2"
                }
            ]
        }
    }
}

上传文件的入口在刚刚创建好的项目中,数据中心->上传数据集。