合同抽取服务针对合同中的要素进行抽取,使用示例如下。
服务开通与资源包购买
预训练模型使用前,请确认是否已经开通了NLP自学习平台服务,开通后可购买资源包。
NLP自学习平台:开通地址
自学习平台资源包:购买地址
一、创建项目
在NLP自学习平台中【点击进入自学习管控台】,支持多个基本项目和应用算法。在本教程中,我们将引导您掌握通过自学习平台创建一个“合同抽取”的项目。
进入“我的项目”或“创建项目”,选择应用算法中的“合同抽取”算法点击“创建”。在接下来的页面填写项目名称和项目描述即可。
二、数据准备
进入“我的项目”后,可以在数据中心中管理您的数据,有两种方式可以创建数据:
1、创建标注任务;2、上传数据集。
2.1创建标注任务
步骤一:上传待标注文档,添加标注人员
创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。
子账号登录说明:
1、子账号登录页,登录:https://signin.aliyun.com/login.htm
2、登录后,点击进入我的项目-创建标注任务。
注意:目前仅支持UTF-8编码方式的数据文件
步骤二:添加自定义标签
合同抽取内置20+个无需标注的实体标签,模型训练的数据标注成本低至原本的20%以下。
选择本次标注需要优化的预置字段,并逐个添加需要标注的自定义标签字段名;
步骤三:标注数据
2.2 上传数据集
由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。
对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。
自行上传的标注数据为JSON格式,且需要符合以下格式,其中文本的内容放在“content”中,而标签的内容放在“records”中,records 中key 为实体名,value 为标注内容在原文中的偏移量。
{
"id_0001": { // 这是该文档在您数据集里的唯一标示
"content": "
输送临时工协议
甲方:深圳市aaa电子有限公司 乙方:深圳市BBB劳务派遣有限公司
地址:深圳市X大道A工业园 地址:深圳市Y区Z办事处S东路1号B大楼1010
法定代表人:韩六
法定代表人:王五
授权代表:李四
授权代表:张三
电话:89601111
电话:1390000****
甲方因生产任务紧张,人员短缺,为保障用工需求,满足正常生产运作,根据《中华人民共和国合同法》和《中
华人民共和国劳动合同法》及其它相关法律法规的有关规定,本着平等自愿、协商一致的原则,就乙方输送临时
工到甲方工作有关事宜签订本协议,并共同遵守本协议书所列之条款。
甲方接受并同意:
乙方接受并同意:
甲方代表签名:
乙方代表签名:",
"records": {
"甲方名称": [{
"span": "深圳市aaa电子有限公司",
"offset": [ //标注字段真实字节的偏移量,首字节的偏移量为0。
11,
23
]
}],
"乙方名称": [{
"span": "深圳市BBB劳务派遣有限公司",
"offset": [
27,
41
]
},
}]
"甲方地址": [{
"span": "深圳市X大道A工业园",
"offset": [
45,
55
]
},
}]
"乙方地址": [{
"span": "深圳市y区z办事处s东路1号b大楼1010",
"offset": [
59,
80
]
},
}]
}
}
}
三、创建模型
在“模型中心”点击“创建模型”;
查看模型详情,点击模型右侧“查看”按钮查看模型详情。
模型详情页
模型测试
模型训练完成后,可对训练好的模型进行线上测试模型效果;
平台模型测试
基于平台已训练好的模型进行文本测试,可以针对需要提升的标签准确率进行单独训练;
附录:合同抽取内置字段及说明 |
序号 | 实体名称 | 说明 |
1 | 合同名称 | |
2 | 合同编号 | |
3 | 合同期限 | |
4 | 合同份数 | |
5 | 合同金额 | |
6 | 合同金额小写 | |
7 | 合同金额大写 | |
8 | 税率 | |
9 | 开始时间 | |
10 | 结束时间 | |
11 | 签订时间 | |
12 | 生效时间 | |
13 | 甲方名称 | |
14 | 甲方签章名称 | |
15 | 甲方银行账号 | |
16 | 甲方银行账户 | |
17 | 甲方开户行名称 | |
18 | 甲方地址 | |
19 | 乙方名称 | |
20 | 乙方签章名称 | |
21 | 乙方银行账号 | |
22 | 乙方银行账户 | |
23 | 乙方开户行名称 | |
24 | 乙方地址 | |
25 | 诉讼法院 | |
26 | 仲裁机构 |