文档

云市场API概览

更新时间:

本章节介绍阿里云OCR在云市场官方店铺(“阿里云计算有限公司”)的API接口概览介绍。具体API调用方法和示例可点击如下链接并在商品详情页进行查看。

API接口查看方法

点击下述链接进入云市场商品详情页,在商品详情页查看“API接口”。

查看请求参数:

image.png

查看请求示例:

image.png

查看正确返回结果

image.png

通用文字识别

API

描述

全文识别高精版

全文识别高精版支持多格式版面、复杂文档背景和光照环境的精准识别,文档识别率超过99.7%。同时针对有印章、手印的文档,可实现印章擦除后识别,支持覆盖文字编辑、低置信度过滤、图案检测等高阶功能。

通用手写体识别

通用手写体识别模型可自动区分文字为印刷体或手写体,并采用对应的模型进行有效识别。(主要支持中文手写体、英文手写体、数字手写体等)。

电商图片文字识别

电商图文识别是专门针对电商商品宣传图片、社区贴吧图片、网络UGC图片等网络场景下图片字符快速精准识别的原子能力产品,在违规广告识别、信息审核管理和网络安全治理等场景下具有极大应用价值。

表格识别

表格识别可支持对有线表格、条纹表格、无线表格进行有效识别。

通用文字识别

通用文字识别适用于各行业场景下的非结构化文字识别,支持返回文字内容和位置坐标信息。

表格提取与Excel导出

表格识别可支持对有线表格、条纹表格进行识别,并支持导出Excel功能,用户可进行二次编辑。

智能表单抽取

智能表单抽取是读光OCR推出的针对表格信息的智能结构化提取功能。可以在文档卡证中自动检测定位到表格区域,并将表格以结构化的方式提取出来。

文档小说图片文字识别

文档小说图片文字识别适用于处理网络上海量的用户原生UGC图片中的文字识别

社区贴吧图片文字识别

社区贴吧图片文字识别适用于各类社区社交新闻媒体里用户发帖,贴吧,以及游戏实时交互图片等的识别。

网络UGC图片文字识别

网络UGC图片文字识别适用于处理网络上海量的用户原生UGC图片中的文字识别。

个人证照识别

API

描述

身份证识别

身份证识别支持二代身份证正反面所有字段的识别。支持实拍复印件判断和人脸位置检测。基于达摩院强大的深度学习算法和OCR技术,各字段精度均处于业界领先水平,身份证号码识别准确率达到99.9%以上,姓名识别准确率达到98%以上。

行驶证识别

行驶证支持对行驶证正页、副页关键字段的自动定位和识别。其中,行驶证的总体准确率和召回率在93%以上,适应模糊、光照不均、透视畸变、任意背景等实际应用中存在的各种情况,并可实现自动裁边、修正倾斜等。

驾驶证识别

驾驶证识别支持对驾驶证上的姓名、证号、国籍、住址、初次领证日期、准驾类型、有效期等字段进行结构化提取。驾驶证的总体准确率和召回率在95%以上。

护照识别

护照识别支持中国大陆护照的结构内容检测识别功能,其中字段包括出生地、出生日期、国籍、性别、护照号码、有效期至、签发国、签发地等;关键字段准确率高于95%以上。

户口本户主页识别

户口本识别可结构化识别户口常住人口登记卡页面及户主页的内容,可有效识别户口本上的相关户籍证明信息。广泛应用于公安、政务、司法等个人信息识别校对场景。

户口本户口页识别

户口本户口页识别可以自动从图片中定位户口页图片区域,智能识别其中包含的身份信息。识别准确率达到99%

出生证明识别

出生证明识别可结构化识别23个有效字段。

银行卡识别

银行卡识别支持各类银行卡中的银行卡卡号和有效期识别,且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取,支持国内大多数银行,以及各种位数、凸字卡面、平面卡面等的识别,为用户提供最方便快捷的身份证信息录入体验。

不动产权证识别

不动产证识别可准确识别不动产证中的各项关键信息,包括户主信息、房屋地址、面积大小、土地权利类型等,能够适用于全国各地的不同房产证识别,具有高鲁棒性,整体字段准确率超过90%。

房产证识别

房产证识别可准确识别房产证中的各项关键信息,包括户主信息、房屋地址、面积大小、土地权利类型等,能够适用于全国各地的不同房产证识别,具有高鲁棒性,整体字段准确率超过90%。

来往港澳通行证识别

来往港澳通行证识别可自动地从图片中定位来往港澳通行证图片区域,识别出其中包含的身份信息。

来往大陆通行证识别

来往大陆通行证识别可自动地从图片中定位来往港澳通行证图片区域,识别出其中包含的身份信息。

会员卡识别

会员卡识别支持识别会员卡上的logo文字、卡号以及卡面上的文字;适合会员卡识别服务,也可适用于类似卡片识别服务

名片识别

名片识别可以自动地从图片中定位名片图片区域,识别出其中包含的名片信息。包括姓名、公司、部门、职位、手机、座机、邮箱等

身份证混贴识别

身份证混贴识别:支持身份证正反面同时识别,一次扫描识别页面所有字段,包括姓名、性别、民族、出生日期、住址、公民身份证号、签发机关、有效期限等

卡证合集识别

卡证合集识别集合阿里云官方身份证、户口页、护照、行驶证、驾驶证、银行卡、营业执照的套餐包!

多卡证智能分类识别

卡证智能分类:可支持对身份证正反面、行驶证正副页、驾驶证、房产证(含不动产证)、营业执照、银行卡、增值税发票、汽车购置发票、火车票、机票行程单、出租车票、定额发票、通行发票、滴滴行程单等十余种卡证的自动分类,并返回用户对应产品类型。可大大节省人工分类成本,适用于需要同时识别多种类型卡证的场景。

企业资质识别

API

描述

营业执照识别

营业执照识别可结构化识别企业营业执照中的注册号、公司名称、地址、主体类型、法定代表人、注册资金、组成形式、成立日期、营业期限和经营范围等关键有效字段。其中企事业名称、法人代表等文字信息准确率超过95%,营业执照注册号等数字信息准确率超过98%。

银行开户许可证识别

银行开户许可证识别可快速精准的识别银行开户许可证中的账号、核准号、企业名称、法人姓名以及开户行等关键信息。

商标注册证识别

商标注册证识别可快速精准的识别商标注册证中所包含的商标名称、注册人、注册人地址以及有效期限、核定服务项目等关键有效字段信息。

食品经营许可证识别

食品经营许可证识别可快速精准的识别食品经营许可证所包含经营者名称、社会信用代码、法定代表人姓名、地址、经营场所、经营项目、有效期、许可证编号等关键字段信息。

食品生产许可证识别

食品生产许可证识别可快速精准的识别食品生产许可证所包含经营者名称、社会信用代码、法定代表人姓名、地址、经营场所、经营项目、有效期、许可证编号等关键字段信息。

医疗器械生产许可证识别

医疗器械生产许可证识别可快速精准的识别医疗器械生产许可证所包含许可证编号、企业名称、注册地址、法定代表人、企业负责人、生产地址、生产范围、有效期限、发证日期等关键字段信息。

医疗器械经营许可证识别

医疗器械经营许可证识别可快速精准的识别医疗器械经营许可证所包含许可证编号、企业名称、注册地址、法定代表人、企业负责人、质量管理人、仓库地址、经营范围、许可期限、发证日期等关键字段信息。

第二类医疗器械经营备案凭证识别

第二类医疗器械经营备案凭证可快速精准的识别第二类医疗器械经营备案凭证所包含备案编号、企业名称、住所、经营场所、库房地址、经营方式、法定代表人、企业负责人、经营范围、许可期限、备案日期等关键字段信息。

中国(香港)营业执照识别

中国香港营业执照识别已支持识别香港公司注册证和香港商业登记证两类证照,其中识别字段包括:公司名称、发行时间、地址等,识别准确率达到98%以上。

公章识别

公章识别可以自动地从文件图片中检测到公章位置,并识别出其中的机关、团体、企事业单位名称。

发票凭证识别

API

描述

票据混贴智能分区识别

票据混贴智能分区识别可自动化对多图混贴场景进行子图分割、子图分类和子图结构化识别。票据检测目前支持增值税发票、火车票、机票行程单、出租车票、定额发票、机动车销售发票等8种票据的检测识别。

增值税发票识别

增值税发票识别,已支持全字段识别,包括价税合计、发票代码、发票号码、合计税额、合计金额、检验码、开票日期、税率、购买方识别号、销售方识别号等,关键信息识别准确率达99%以上。

机动车销售发票识别

机动车统一销售发票识别, 支持购车发票识别,可识别发票中的全部字段,包括:机打号码、机打代码、发票号码、发票代码、身份证号、发票日期、车辆识别代号、销货单位名称、购买方名称、不含税价、税率、价税合计、价税合计(小写)、增值税税额等。

定额发票识别

定额发票支持对全国各个地区的定额发票上的发票号码、发票代码、发票金额进行结构化识别。

火车票识别

火车票识别支持火车票全部字段的识别,包括:编号、席别、票价、姓名、座位号、出发时间、出发站、到达站、车次等。火车票关键字段姓名、出发时间、出发站、识别、座位号等识别准确率达到96%以上。

出租车发票识别

出租车机打发票识别,支持全国出租车发票,关键字段包括,发票号码、发票代码、金额、日期等识别。出租车票关键字段发票代码、发票号码识别准确率达到95%以上。

增值税发票卷票识别

增值税发票卷票识别,支持对卷票上包括价税合计、发票代码、发票号码、合计税额、合计金额、密码区、开票日期、税率、购买方识别号、销售方识别号等结构化识别。

航空行程单识别

航空行程单识别可识别航空运输电子行程单的乘机人姓名,身份证号,电子客票号码,验证码,填开日期,销售单位代号,承运人,填开单位,票价,税费,燃油附加费,民航发展基金,保险费,总额,航班信息,出发站,到达站,航班号,乘机日期,乘机时间,座位等级等结构化字段。

网约车行程单识别

网约车行程单识别支持网约车行程单全部字段的识别,包括:服务商、申请日期、行程开始时间、行程结束时间、行程人手机号、总金额等识别准确率达到96%以上。

二手车销售发票识别

二手车销售发票识别支持二手车销售统一发票全字段识别,包括:开票日期、发票号码、买方单位、卖方单位等,识别准确率达到98%以上。

银行承兑汇票识别

银承汇票识别支持关键字段识别,包括出票日期、票据号码、出票人信息、收票人信息、承兑人信息、票据金额等结构化识别结果输出。

通用混贴票证识别

通用混贴票证识别,基于对客户实际业务流应用场景中对OCR智能化、语义化、泛在化识别能力的需求,有效整合读光通用高精度文本识别、结构化理解、检测分类及自然语义理解等关键技术,有效实现自动分类、关键有效信息精准识别和结构化提取。目前支持火车票、飞机行程单、出租车发票、定额发票、增值税发票、身份证正面、身份证反面、行驶证正面、机动车登记证、行驶证反面、银行卡、驾驶证正面、卷票、户主页、常住人口页15种票据的检测识别。

车辆物流识别

API

描述

车辆vin码识别

车辆vin码识别可识别车辆上的vin码唯一标识,用于进行车辆质检检查、车辆登记等场景。

车牌识别

车牌识别可有效识别车辆车牌信息,支持多车牌以及多类车型检测识别,可有效识别大型汽车、小型汽车、新能源车、挂车、临时车牌、警车、军车、使领馆车、教练车、港澳车等多种车型,识别率达到97%以上。

电子面单识别

电子面单识别支持识别面单上的收件人姓名、电话、地址和寄件人的姓名、电话、地址等结构化信息。

箱门识别

箱门识别可识别货运物流箱门号码。

铅封识别

铅封识别可识别货运物流所需的铅封号码。

行驶证识别

行驶证支持对行驶证正页、副页关键字段的自动定位和识别。其中,行驶证的总体准确率和召回率在93%以上,适应模糊、光照不均、透视畸变、任意背景等实际应用中存在的各种情况,并可实现自动裁边、修正倾斜等。

驾驶证识别

驾驶证识别支持对驾驶证上的姓名、证号、国籍、住址、初次领证日期、准驾类型、有效期等字段进行结构化提取。驾驶证的总体准确率和召回率在95%以上。

行驶证副页识别

行驶证支持对行驶证副页关键字段的自动定位和识别。其中,行驶证的总体准确率和召回率在93%以上,适应模糊、光照不均、透视畸变、任意背景等实际应用中存在的各种情况,并可实现自动裁边、修正倾斜等

行驶证混贴识别

行驶证混贴识别支持对正副页在同一张图片的场景进行自动分割与结构化识别

车辆登记证识别

车辆登记证识别可快速精准的识别机车注册证所包含证件类别、编号、机动车所有人、登记机关、登记日期、机动车登记编号等关键字段信息。整体字段准确率超99%。

机车合格证识别

机车合格证识别支持车辆型号、车辆识别代号、底盘型号、发动机型号等字段进行结构化提取。车辆合格证的平均召回率在97%。

小语种文字识别

API

描述

通用多语言识别

通用多语言识别能够支持国际主流几大语系的自动语言分类判定并返回对应语言的文字信息。语言检测覆盖十余个国家地区语种,适用于国际化所需的各类图文识别与信息翻译场景。

英语专项识别

英文专项识别是针对全英文图片文档场景下英文印刷体字符高效检测和识别的原子能力产品,具备英文专项识别和英文分词功能,支持旋转、表格、文字坐标等多项基础功能,全英文文档字符识别率超过99%。

日语识别

日语识别是针对全日文图片文档场景下日文印刷体高效检测和识别的原子能力产品,支持旋转、表格、文字坐标等多项基础功能。

韩语识别

韩语识别是针对图片文档场景下韩文印刷体高效检测和识别的原子能力产品,支持旋转、表格、文字坐标等多项基础功能。

泰语识别

泰语识别是针对图片文档场景下韩文印刷体高效检测和识别的原子能力产品,支持旋转、表格、文字坐标等多项基础功能。

俄语识别

俄语识别是针对图片文档场景下韩文印刷体高效检测和识别的原子能力产品,支持旋转、表格、文字坐标等多项基础功能。

拉丁语识别

拉丁语识别是针对拉丁语系的图片文档场景下印刷体高效检测和识别的原子能力产品,支持旋转、表格、文字坐标等多项基础功能。可识别英语,德语,西班牙语,法语,意大利语,葡萄牙语,马来西亚语,印尼语,土耳其语,越南语等语种。

教育试题识别

API

描述

公式识别

公式识别是教育的基础OCR识别能力,可支持理科(数学、物理、化学、生物等)的印刷体和手写体的公式识别,其中,印刷体公式识别率高于96%,返回结果为Latex格式。

题目识别

题目识别是教育的基础OCR识别能力。可支持扫描、拍照场景的单题题目识别。接口支持印刷体文本、手写体文本及公式的OCR识别和坐标返回,此外,接口还可对题目中的配图位置进行检测并返回坐标位置。适用于智能批改等场景的题目内容识别作为检索输入。

整页试卷识别

整页试卷识别是教育的基础OCR识别能力。支持K12全学科扫描场景的整页内容文字识别。接口支持印刷体文本及公式的OCR识别和坐标返回,此外,接口还可对题目中的配图位置进行检测并返回坐标位置。适用于对练习册、教辅、教材等内容进行整页识别与题目检索。

扫描版试卷切题

扫描试卷切题可支持各学科的教辅、试卷的自动切题与结构化识别,针对电子扫描图片在教辅数字化、试卷批改有广泛应用。可应用于题目录入场景,可大大减少人工录题成本,提升题目生产效率。

实拍版试卷切题

拍照图切题可支持各学科的教辅、试卷的自动切题与结构化识别,针对拍照图片在教辅数字化、试卷批改有广泛应用。

教育判题批改

教育判题批改是一款可帮助学校老师减负增效的产品能力。针对学生平时的课后练习,只需老师提供带正确答案的模板,即可对学生的答题试卷进行自动批改。可大幅提高老师的批改效率,解放老师的生产力。

口算判题

口算判题可以识别小学数学口算题目并给出题目判断结果。可支持整数的加减乘除四则运算、整数的混合运算、大小比较、最大数最小数等。

英语作文识别

英语作文识别可对答题卡的英语手写作文进行有效识别,返回的单词包含置信度信息,用户可根据置信度信息提示错误单词,辅助老师快速进行阅卷。

答题卡主观题识别

答题卡主观题识别可识别教育答题卡中主观题部分的答案区域,用户可基于该功能进行自动答案比对与批改

课件识别

课件识别可有效识别教师课件PPT上的文字信息,便于进行知识点归纳、笔记整理、信息检索等应用场景

手写数字识别

手写数字识别:智能化识别图片中的手写体数字

板书/笔记识别

板书/笔记识别可识别教育场景中的学生笔记、手账本、教师板书内容

办公文档识别

API

描述

PDF识别

读光PDF识别可支持导入PDF格式的文件进行文本提取生成双层pdf,并可支持将识别结果转成word格式。该接口是一个异步调用接口。

表格提取与Excel导出

表格识别可支持对有线表格、条纹表格进行识别,并支持导出Excel功能,用户可进行二次编辑。

智能表单抽取

智能表单抽取是读光OCR推出的针对表格信息的智能结构化提取功能。可以在文档卡证中自动检测定位到表格区域,并将表格以结构化的方式提取出来。

文档结构化还原识别

文档结构化还原识别通过文档结构化识别与还原功能,能够将文档中的文字元素(单字、文字块、行、表格等)和版面格式抽离并按顺序输出。可针对跨页的图片,可实现分栏切边;针对有印章、手印的文档,可去印章后识别。

批量文档比对

批量文档比对,对纸质合同、文书、协议等版本修订审查场景下,关键有效信息的批量识别和差异化比对需求,实现对上传的文档进行批量识别、自动分类、文字差异比对,降低人工审核成本,提升流程效率。用户需要上传标准文档和比对文档,

PDF解析

读光OCR PDF解析:支持识别PDF格式文档其中所包含的文字信息。

其他场景

API

描述

二维码识别

二维码识别可以自动检测图片中的二维码,并解析识别出二维码中包含的文字信息。

燃气表/水表识别

燃气表/水表识别可以自动识别燃气表和水表的读数。

  • 本页导读 (0)
文档反馈