合同抽取

合同抽取服务针对合同中的要素进行抽取,使用示例如下。

服务开通与资源包购买

预训练模型使用前,请确认是否已经开通了NLP自学习平台服务,开通后可购买资源包。

NLP自学习平台:开通地址

自学习平台资源包:购买地址

一、创建项目

在NLP自学习平台中【点击进入自学习管控台】,支持多个基本项目和应用算法。在本教程中,我们将引导您掌握通过自学习平台创建一个“合同抽取”的项目。

进入“我的项目”或“创建项目”,选择应用算法中的“合同抽取”算法点击“创建”。在接下来的页面填写项目名称和项目描述即可。

合同抽取

二、数据准备

进入“我的项目”后,可以在数据中心中管理您的数据,有两种方式可以创建数据:

1、创建标注任务;2、上传数据集。

2.1创建标注任务

步骤一:上传待标注文档,添加标注人员

说明

创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。

子账号登录说明:

1、子账号登录页,登录:https://signin.aliyun.com/login.htm

2、登录后,点击进入我的项目-创建标注任务。

注意:目前仅支持UTF-8编码方式的数据文件

合同抽取演示

步骤二:添加自定义标签

说明

合同抽取内置20+个无需标注的实体标签,模型训练的数据标注成本低至原本的20%以下。

选择本次标注需要优化的预置字段,并逐个添加需要标注的自定义标签字段名;

image.png

步骤三:标注数据

标注页面

2.2 上传数据集

由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。

对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。

自行上传的标注数据为JSON格式,且需要符合以下格式,其中文本的内容放在“content”中,而标签的内容放在“records”中,records 中key 为实体名,value 为标注内容在原文中的偏移量。

{
    "id_0001": { // 这是该文档在您数据集里的唯一标示
        "content": "
          输送临时工协议
          甲方:深圳市aaa电子有限公司 乙方:深圳市BBB劳务派遣有限公司
          地址:深圳市X大道A工业园 地址:深圳市Y区Z办事处S东路1号B大楼1010
          法定代表人:韩六
          法定代表人:王五
          授权代表:李四
          授权代表:张三
          电话:89601111
          电话:1390000****
          甲方因生产任务紧张,人员短缺,为保障用工需求,满足正常生产运作,根据《中华人民共和国合同法》和《中                    
          华人民共和国劳动合同法》及其它相关法律法规的有关规定,本着平等自愿、协商一致的原则,就乙方输送临时 
          工到甲方工作有关事宜签订本协议,并共同遵守本协议书所列之条款。
          甲方接受并同意:
          乙方接受并同意:
          甲方代表签名:
          乙方代表签名:",
        "records": {
            "甲方名称": [{
                "span": "深圳市aaa电子有限公司",
                "offset": [ //标注字段真实字节的偏移量,首字节的偏移量为0。
                    11,
                    23
                ]
            }],
            "乙方名称": [{
                "span": "深圳市BBB劳务派遣有限公司",
                "offset": [
                    27,
                    41
                ]
            },
            }]
            "甲方地址": [{
                "span": "深圳市X大道A工业园",
                "offset": [
                    45,
                    55
                ]
            },
            }]
            "乙方地址": [{
                "span": "深圳市y区z办事处s东路1号b大楼1010",
                "offset": [
                    59,
                    80
                ]
            },
            }]
        }
    }
}

三、创建模型

在“模型中心”点击“创建模型”;创建模型

查看模型详情,点击模型右侧“查看”按钮查看模型详情。

演示

模型详情页详情页

模型测试

模型训练完成后,可对训练好的模型进行线上测试模型效果;测试

平台模型测试

基于平台已训练好的模型进行文本测试,可以针对需要提升的标签准确率进行单独训练;平台测试

附录:合同抽取内置字段及说明

序号

实体名称

说明

1

合同名称

2

合同编号

3

合同期限

4

合同份数

5

合同金额

6

合同金额小写

7

合同金额大写

8

税率

9

开始时间

10

结束时间

11

签订时间

12

生效时间

13

甲方名称

14

甲方签章名称

15

甲方银行账号

16

甲方银行账户

17

甲方开户行名称

18

甲方地址

19

乙方名称

20

乙方签章名称

21

乙方银行账号

22

乙方银行账户

23

乙方开户行名称

24

乙方地址

25

诉讼法院

26

仲裁机构