文档结构化-KV信息抽取适用于从文档中抽取符合key : value模式的信息,典型应用场景如简历文档、合同文档、报告文档等,对具备显著KV信息模式的文档抽取效果较好。
本服务由NLP自学习平台提供,直接调用API即可使用。
服务开通与资源包购买
使用前,请确认是否已经开通服务,开通后可购买资源包。
服务调用与调试
模型调用文档参考:模型调用
SDK示例文档参考:SDK示例
调试
您可以在OpenAPI开发者门户中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI开发者门户可以自动生成SDK代码示例。
通过环境变量配置访问凭证(AKSK)
说明:
阿里云账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM用户进行API访问或日常运维,请登录RAM控制台创建RAM用户。
强烈建议不要把AccessKey和AccessKeySecret保存到代码里,会存在密钥泄漏风险,在此提供通过配置环境变量的方式来保存和访问aksk
Linux和macOS系统配置方法
export NLP_AK_ENV=<access_key_id> export NLP_SK_ENV=<access_key_secret>
其中<access_key_id>替换为已准备好的AccessKey ID,<access_key_secret>替换为AccessKey Secret,AccessKey ID和AccessKey Secret的获取方式见步骤二:获取账号的AccessKey
Windows系统配置方法
新建环境变量文件,添加环境变量
NLP_AK_ENV
和NLP_SK_ENV
,并写入已准备好的AccessKey ID和AccessKey Secret。重启Windows系统。
调用KV信息抽取服务,ServiceName需要传入:NER-KV (注意全部大写)
Java代码示例
/**
* 阿里云账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM用户进行API访问或日常运维,请登录RAM控制台创建RAM用户。
* 此处以把AccessKey和AccessKeySecret保存在环境变量为例说明。您也可以根据业务需要,保存到配置文件里。
* 强烈建议不要把AccessKey和AccessKeySecret保存到代码里,会存在密钥泄漏风险
*/
String accessKeyId = System.getenv("NLP_AK_ENV");
String accessKeySecret = System.getenv("NLP_SK_ENV");
DefaultProfile defaultProfile = DefaultProfile.getProfile("cn-hangzhou",accessKeyId,accessKeySecret);
IAcsClient client = new DefaultAcsClient(defaultProfile);
String content = "姓名:张三 年龄:21岁 手机号码:1390000****";
RunPreTrainServiceRequest request = new RunPreTrainServiceRequest();
request.setServiceName("NER-KV");
request.setPredictContent(content);
RunPreTrainServiceResponse response = client.getAcsResponse(request);
System.out.println(response.getPredictResult());
Python代码示例
PredictResult是JSON字符串,需要反序列化之后进行解析。
# 安装依赖
pip install aliyun-python-sdk-core
pip install aliyun-python-sdk-nlp-automl
# -*- coding: utf8 -*-
import json
import os
from aliyunsdkcore.client import AcsClient
from aliyunsdkcore.acs_exception.exceptions import ClientException
from aliyunsdkcore.acs_exception.exceptions import ServerException
from aliyunsdknlp_automl.request.v20191111 import RunPreTrainServiceRequest
/**
* 阿里云账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM用户进行API访问或日常运维,请登录RAM控制台创建RAM用户。
* 此处以把AccessKey和AccessKeySecret保存在环境变量为例说明。您也可以根据业务需要,保存到配置文件里。
* 强烈建议不要把AccessKey和AccessKeySecret保存到代码里,会存在密钥泄漏风险
*/
access_key_id = os.environ['NLP_AK_ENV']
access_key_secret = os.environ['NLP_SK_ENV']
# Initialize AcsClient instance
client = AcsClient(
access_key_id,
access_key_secret,
"cn-hangzhou"
);
content = '姓名:张三 年龄:21岁 手机号码:1390000****'
# Initialize a request and set parameters
request = RunPreTrainServiceRequest.RunPreTrainServiceRequest()
request.set_ServiceName('NER-KV')
request.set_PredictContent(content)
# Print response
response = client.do_action_with_exception(request)
resp_obj = json.loads(response)
predict_result = json.loads(resp_obj['PredictResult'])
print(predict_result)
输入示例:
2021年试油公司塔河油田井口、采油树试压作业招标第二次公告
招标编号:SYGS-ZB2021038
一、招标条件:
本项目已按要求履行了相关报批及备案等手续,资金已落实,具备招标条件,现对其进行公开招标。
二、项目概况:
1.项目背景:
2021年中石化西北油田分公司塔河油田完井测试中心决定将公司试油过程中配合作业的特车作业、打防火墙、硫化氢处理、废液运输和采油树试压等一体化施工,交由公司总包。年试油井50井次,预计一体化施工产值600万元,其中井口、采油树等试压作业项目资金预算49万元,项目履行期限:自合同签订之日起至2021年12月31日。
1. 1招标范围:
1.1.1确定井口试压、140MPA采油(气)树和采油机抽井口现场试压、现场试压数据采集所需要的设备和人员的服务价格。
1.2 服务区域:试油公司南疆塔河油田所属作业区域。
1.3 项目预计金额:49万元人民币,含税。
1.4 标段划分:本项目不划分标段。
1.5 招标结果有效期:自合同签订之日起至2021年12月31日。
2. 服务要求:
2.1服务技术要求:
2.1.1、施工队伍持有中石化油田分公司相应市场准入证;
2.1.2具有井口试压、140MPA采油(气)树和采油机抽井口现场试压、现场试压数据采集所需要的设备和人员。
2.1.3应当以自己的设备和人员施工,不得分包、转包。
三、投标人资质要求
1.具有独立的企业法人资格和有效的营业执照(经营范围须包括相关技术服务);
2.投标人须具备有效的中石化市场准入证(中石化西北油分公司市场信息系统),范围须包含本项目相关服务内容;
3.本次招标不接受联合体投标;
4.投标人近三年无严重违法、违规事项,无骗取中标情况,无重大质量、安全问题。以下列平台的查询结果和相关部门的证明材料为准。
(1)国家工商总局的《全国企业信用信息公示系统》“行政处罚信息”和“严重违法失信企业名单”中查询,查询网址是:http://www.gsxt.gov.cn/。
(2)中华人民共和国最高人民法院《全国法院失信被执行人名单信息公布与查询》平台公布信息为准;查询网址是:http://shixin.court.gov.cn/。
四、招标文件的获取
招标文件发售期为:2021年3月10日10:00至2021年3月14日19:00。持单位法人授权委托书、购买标书登记表(表格见公告附表)持单位法人授权委托书、购买标书登记表在库尔勒市建国北路3号综合办公楼304室购买招标文件,每套售价500 元(注:需通过银行汇款,款项来源填写试油公司XXX项目,每月24日-31日不接受汇款。)
名 称:中国石油集团西部钻探工程有限公司
纳税人识别号:90000****22223333J
地址.电话:克拉玛依市友谊路001号(试油公司)0001-1234567
开户行账号:昆仑银行股份有限公司克拉玛依友谊路支行11110000****00008888
五、投标文件的递交
1、投标文件递交截止时间: 2021年3月31日下午16:00(北京时间)。
2、投标文件递交方式:开标现场递交纸质投标文件正本一份4副(电子版标书光盘1张)。
六、开标
1.开标时间:2021年3月31日下午16:00
2.开标地点:克拉玛依市友谊路001号石油公司办公楼A2-701会议室
七、招标人信息
招标人:西部钻探工程有限公司试油公司
地 址:克拉玛依市友谊路001号
联系人:段先生
电 话:0001-1234567 1390000****
返回结果示例:
[
{
"key": [
"招标编号"
],
"value": [
"SYGS-ZB2021038"
],
"key_offset": [
[
29,
33
]
],
"value_offset": [
[
34,
35
]
]
},
{
"key": [
"招标条件"
],
"value": [
"本项目已按要求履行了相关报批及备案等手续,资金已落实,具备招标条件,现对其进行公开招标"
],
"key_offset": [
[
39,
43
]
],
"value_offset": [
[
46,
89
]
]
},
{
"key": [
"项目概况",
"项目背景"
],
"value": [
"2021年中石化西北油田分公司塔河油田完井测试中心决定将公司试油过程中配合作业的特车作业、打防火墙、硫化氢处理、废液运输和采油树试压等一体化施工,交由公司总包。年试油井50井次,预计一体化施工产值600万元,其中井口、采油树等试压作业项目资金预算49万元,项目履行期限:自合同签订之日起至2021年12月31日"
],
"key_offset": [
[
94,
98
],
[
102,
106
]
],
"value_offset": [
[
109,
252
]
]
},
{
"key": [
"项目概况",
"招标范围"
],
"value": [
"1.1.1确定井口试压、140MPA采油(气)树和采油机抽井口现场试压、现场试压数据采集所需要的设备和人员的服务价格"
],
"key_offset": [
[
94,
98
],
[
259,
263
]
],
"value_offset": [
[
266,
314
]
]
},
{
"key": [
"项目概况",
"服务区域"
],
"value": [
"试油公司南疆塔河油田所属作业区域"
],
"key_offset": [
[
94,
98
],
[
320,
324
]
],
"value_offset": [
[
325,
341
]
]
},
{
"key": [
"项目概况",
"项目预计金额"
],
"value": [
"49万元人民币,含税"
],
"key_offset": [
[
94,
98
],
[
347,
353
]
],
"value_offset": [
[
354,
363
]
]
},
{
"key": [
"项目概况",
"标段划分"
],
"value": [
"本项目不划分标段"
],
"key_offset": [
[
94,
98
],
[
369,
373
]
],
"value_offset": [
[
374,
382
]
]
},
{
"key": [
"项目概况",
"招标结果有效期"
],
"value": [
"自合同签订之日起至2021年12月31日"
],
"key_offset": [
[
94,
98
],
[
388,
395
]
],
"value_offset": [
[
396,
411
]
]
},
{
"key": [
"服务要求",
"服务技术要求"
],
"value": [
"2.1.1、施工队伍持有中石化油田分公司相应市场准入证",
"2.1.2具有井口试压、140MPA采油(气)树和采油机抽井口现场试压、现场试压数据采集所需要的设备和人员",
"2.1.3应当以自己的设备和人员施工,不得分包、转包"
],
"key_offset": [
[
417,
421
],
[
425,
431
]
],
"value_offset": [
[
434,
456
],
[
459,
502
],
[
505,
527
]
]
},
{
"key": [
"投标人资质要求"
],
"value": [
"1.具有独立的企业法人资格和有效的营业执照(经营范围须包括相关技术服务)",
"2.投标人须具备有效的中石化市场准入证(中石化西北油分公司市场信息系统),范围须包含本项目相关服务内容",
"3.本次招标不接受联合体投标",
"4.投标人近三年无严重违法、违规事项,无骗取中标情况,无重大质量、安全问题。以下列平台的查询结果和相关部门的证明材料为准",
"(",
"1)国家工商总局的《全国企业信用信息公示系统》“行政处罚信息”和“严重违法失信企业名单”中查询"
],
"key_offset": [
[
532,
539
]
],
"value_offset": [
[
541,
576
],
[
579,
629
],
[
632,
645
],
[
648,
707
],
[
710,
711
],
[
711,
757
]
]
},
{
"key": [
"投标人资质要求",
"查询网址是"
],
"value": [
"http://www.gsxt.gov.cn/",
"(",
"2)中华人民共和国最高人民法院《全国法院失信被执行人名单信息公布与查询》平台公布信息为准"
],
"key_offset": [
[
532,
539
],
[
758,
763
]
],
"value_offset": [
[
764,
767
],
[
770,
771
],
[
771,
815
]
]
},
{
"key": [
"投标人资质要求",
"查询网址是"
],
"value": [
"http://shixin.court.gov.cn/"
],
"key_offset": [
[
532,
539
],
[
816,
821
]
],
"value_offset": [
[
822,
825
]
]
},
{
"key": [
"招标文件的获取",
"招标文件发售期为"
],
"value": [
"2021年3月10日10:00至2021年3月14日19:00。持单位法人授权委托书、购买标书登记表(表格见公告附表)持单位法人授权委托书、购买标书登记表在库尔勒市建国北路3号综合办公楼304室购买招标文件,每套售价500元(注:需通过银行汇款,款项来源填写试油公司XXX项目,每月24日-31日不接受汇款。)"
],
"key_offset": [
[
830,
837
],
[
839,
847
]
],
"value_offset": [
[
848,
984
]
]
},
{
"key": [
"招标文件的获取",
"名称"
],
"value": [
"中国石油集团西部钻探工程有限公司"
],
"key_offset": [
[
830,
837
],
[
986,
990
]
],
"value_offset": [
[
991,
1007
]
]
},
{
"key": [
"招标文件的获取",
"纳税人识别号"
],
"value": [
"90000****22223333J"
],
"key_offset": [
[
830,
837
],
[
1009,
1015
]
],
"value_offset": [
[
1016,
1017
]
]
},
{
"key": [
"招标文件的获取",
"地址.电话"
],
"value": [
"克拉玛依市友谊路001号(试油公司)0001-1234567"
],
"key_offset": [
[
830,
837
],
[
1019,
1024
]
],
"value_offset": [
[
1025,
1042
]
]
},
{
"key": [
"招标文件的获取",
"开户行账号"
],
"value": [
"昆仑银行股份有限公司克拉玛依友谊路支行11110000****00008888"
],
"key_offset": [
[
830,
837
],
[
1044,
1049
]
],
"value_offset": [
[
1050,
1070
]
]
},
{
"key": [
"投标文件的递交",
"投标文件递交截止时间"
],
"value": [
"2021年3月31日下午16:00(北京时间)"
],
"key_offset": [
[
1074,
1081
],
[
1084,
1094
]
],
"value_offset": [
[
1097,
1114
]
]
},
{
"key": [
"投标文件的递交",
"投标文件递交方式"
],
"value": [
"开标现场递交纸质投标文件正本一份4副(电子版标书光盘1张)"
],
"key_offset": [
[
1074,
1081
],
[
1118,
1126
]
],
"value_offset": [
[
1127,
1156
]
]
},
{
"key": [
"开标",
"开标时间"
],
"value": [
"2021年3月31日下午16:00"
],
"key_offset": [
[
1161,
1163
],
[
1166,
1170
]
],
"value_offset": [
[
1171,
1184
]
]
},
{
"key": [
"开标",
"开标地点"
],
"value": [
"克拉玛依市友谊路001号石油公司办公楼A2-701会议室"
],
"key_offset": [
[
1161,
1163
],
[
1187,
1191
]
],
"value_offset": [
[
1192,
1213
]
]
},
{
"key": [
"招标人信息",
"招标人"
],
"value": [
"西部钻探工程有限公司试油公司"
],
"key_offset": [
[
1217,
1222
],
[
1224,
1227
]
],
"value_offset": [
[
1228,
1242
]
]
},
{
"key": [
"招标人信息",
"地址"
],
"value": [
"克拉玛依市友谊路001号"
],
"key_offset": [
[
1217,
1222
],
[
1244,
1248
]
],
"value_offset": [
[
1249,
1259
]
]
},
{
"key": [
"招标人信息",
"联系人"
],
"value": [
"段先生"
],
"key_offset": [
[
1217,
1222
],
[
1261,
1264
]
],
"value_offset": [
[
1265,
1268
]
]
},
{
"key": [
"招标人信息",
"电话"
],
"value": [
"0001-1234567"
],
"key_offset": [
[
1217,
1222
],
[
1270,
1274
]
],
"value_offset": [
[
1275,
1276
]
]
}
招标信息抽取字段及说明
序号 | 实体名称 | 说明 |
1 | key | List类型,当List长度大于1时,表示多个Key是层次关系 |
2 | value | List类型,当List长度大于1时,表示多个value是并列关系 |
3 | key_offset | 对应key在文档中的开始结束位置信息 |
4 | value_offset | 对应value在文档中的开始结束位置信息 |