通用手写体识别。
接口说明
本接口适用场景
- 阿里云通用手写体识别,是阿里云官方自研OCR文字识别产品,适用于获取手写体书面形式的文字场景,适用于各类手写笔记、板书等。
- 阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。
- 本接口图片示例

本接口核心能力
分类 | 概述 |
---|---|
多文字形式 | 支持中文手写体、英文手写体、数字手写体。 |
图像增强 | 默认支持图像增强,包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。 |
多类型覆盖 | 支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。 |
高精度识别 | 总体识别准确率可达98%。 |
如何使用本接口
步骤 | 概述 |
---|---|
1 | 开通 通用文字识别 服务。开通服务前后,您可以通过体验馆免费体验本功能识别效果。 |
2 | 购买通用手写体识别资源包。本API会赠送免费额度,可使用免费额度测试。 |
3 | 可以参照调试页面提供的代码示例完成API接入开发。接入完成后,调用API获取识别结果。如果使用子账号调用接口,需要阿里云账号(主账号)对RAM账号进行授权。创建RAM用户的具体操作,请参考:创建RAM用户。文字识别服务提供一种系统授权策略,即AliyunOCRFullAccess。具体授权操作,请参见在用户页面为RAM用户授权。 |
重要提示
类型 | 概述 |
---|---|
图片格式 |
|
图片尺寸 |
|
图片大小 |
|
其他提示 |
|
相关能力 |
调试
您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。
授权信息
下表是API对应的授权信息,可以在RAM权限策略语句的Action
元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:
- 操作:是指具体的权限点。
- 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
- 资源类型:是指操作中支持授权的资源类型。具体说明如下:
- 对于必选的资源类型,用背景高亮的方式表示。
- 对于不支持资源级授权的操作,用
全部资源
表示。
- 条件关键字:是指云产品自身定义的条件关键字。
- 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作 | 访问级别 | 资源类型 | 条件关键字 | 关联操作 |
---|---|---|---|---|
ocr:RecognizeHandwriting | Write |
|
| 无 |
请求参数
名称 | 类型 | 必填 | 描述 | 示例值 |
---|---|---|---|---|
Url | string | 否 |
| https://img.alicdn.com/tfs/TB1Wo7eXAvoK1RjSZFDXXXY3pXa-2512-3509.jpg |
body | byte | 否 |
| 图片二进制文件 |
OutputCharInfo | boolean | 否 |
| false |
NeedRotate | boolean | 否 |
| false |
OutputTable | boolean | 否 |
| false |
NeedSortPage | boolean | 否 |
| false |
返回参数
返回参数说明
字段 | 类型 | 说明 |
---|---|---|
angle | int | 图片的角度(当NeedRotate=true时,返回此字段)。0表示正向,90表示图片朝右,180朝下,270朝左。 |
content | string | 识别出图片的文字块汇总。 |
prism_wordsInfo | list | 文字块信息。 |
prism_tablesInfo | list | 表格信息(当OutputTable=true时,返回此字段)。 |
prism_wnum | int | 识别的文字块的数量,prism_wordsInfo数组的大小。 |
height | int | 算法矫正图片后的高度。 |
width | int | 算法矫正图片后的宽度。 |
orgHeight | int | 原图的高度。 |
orgWidth | int | 原图的宽度。 |
文字块信息(prism_wordsInfo字段。)
字段 | 类型 | 说明 |
---|---|---|
angle | int | 文字块的角度。 |
height | int | 算法矫正图片后的高度。 |
width | int | 算法矫正图片后的宽度。 |
pos | list | 文字块的外矩形四个点的坐标按顺时针排列(左上、右上、右下、左下)。当NeedRotate=true时,如果最外层的angle不为0,需要按照angle矫正图片后,坐标才准确。 |
word | string | 文字块的文字内容。 |
tableId | int | 表格的id(当OutputTable=true时,返回此字段)。 |
tableCellId | int | 表格中单元格的id(当OutputTable=true时,返回此字段)。 |
charInfo | list | 单字信息。 |
单字信息(charInfo字段。当OutputCharInfo=true时,返回此字段。)
字段 | 类型 | 说明 |
---|---|---|
word | string | 单字文字。 |
prob | int | 置信度。 |
x | int | 单字左上角横坐标。 |
y | int | 单字左上角纵坐标。 |
w | int | 单字宽度。 |
h | int | 单字高度。 |
表格信息(prism_tablesInfo字段。当OutputTable=true时,返回此字段。)
字段 | 类型 | 说明 |
---|---|---|
tableId | int | 表格id,和prism_wordsInfo信息中的tableId对应。 |
xCellSize | int | 表格中横坐标单元格的数量。 |
yCellSize | int | 表格中纵坐标单元格的数量。 |
cellInfos | list | 单元格信息。 |
单元格信息(cellInfos字段。)
字段 | 类型 | 说明 |
---|---|---|
tableCellId | int | 表格中单元格id,和prism_wordsInfo信息中的tableCellId对应。 |
word | string | 单元格中的文字。 |
xsc | int | xStartCell缩写,表示横轴方向该单元格起始在第几个单元格,第一个单元格值为0。 |
xec | int | xEndCell缩写,表示横轴方向该单元格结束在第几个单元格,第一个单元格值为0,如果xsc和xec都为0说明该文字在横轴方向占据了一个单元格并且在第一个单元格内。 |
ysc | int | yStartCell缩写,表示纵轴方向该单元格起始在第几个单元格,第一个单元格值为0。 |
yec | int | yEndCell缩写,表示纵轴方向该单元格结束在第几个单元格,第一个单元格值为0。 |
pos | list | 单元格位置,按照单元格四个角的坐标顺时针排列,分别为左上XY坐标、右上XY坐标、右下XY坐标、左下XY坐标。 |
示例
正常返回示例
JSON
格式
{
"RequestId": "43A29C77-405E-4CC0-BC55-EE694AD00655",
"Data": "{\"content\":\"炼句 提问方式 1.请赏析诗歌某一联(句) 2.赏析某一联(句)的妙处 3.请赏析诗歌某、角度抒胸意、借景抒情、托物\",\"height\":1277,\"orgHeight\":1277,\"orgWidth\":1080,\"prism_version\":\"1.0.9\",\"prism_wnum\":26,\"prism_wordsInfo\":[{\"angle\":-87,\"direction\":0,\"height\":83,\"pos\":[{\"x\":177,\"y\":56},{\"x\":260,\"y\":60},{\"x\":259,\"y\":88},{\"x\":176,\"y\":84}],\"prob\":96,\"width\":28,\"word\":\"炼句\",\"x\":203,\"y\":30}],\"width\":1080}",
"Code": "200",
"Message": "message"
}
错误码
访问错误中心查看更多错误码。
变更历史
变更时间 | 变更内容概要 | 操作 | ||||
---|---|---|---|---|---|---|
2021-08-17 | OpenAPI 入参发生变更 | |||||
|