视频文字识别

本文介绍文字识别(ocr)类目下的RecognizeVideoCharacter视频文字识别的语法及示例。

功能描述

视频文字识别能力可以实现对输入视频的结构化处理,返回对应的文字内容、文字区域坐标及时间等信息。

说明
  • 您可以进入在线咨询获取在线人工帮助。
  • 当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击立即试用对该能力进行更直观试用以及在线购买。
  • 阿里云视觉智能开放平台视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。

特色优势

支持多种视频格式:支持AVI、MP4、H264编码格式。

接入指引

1. 注册阿里云账号:打开阿里云官网,在阿里云官网右上角,单击立即注册,按照操作提示完成账号注册。

2. 开通能力:请确保您已开通文字识别服务,若未开通服务请立即开通

3. 创建AccessKey:请确保您已创建AccessKey,如果您使用的是子账号AccessKey,您需要给子账号赋予AliyunVIAPIFullAccess权限,具体操作,请参见RAM授权

4. 在线调试(可选):您可以通过OpenAPI Explorer在线调试能力,查看完整的调用示例代码及SDK依赖信息,也可以下载完整的工程。

5. 开发接入步骤:

  • SDK总览中选择您要接入使用的SDK语言。
  • 在对应语言的SDK文档中找到AI类目为文字识别(ocr)的SDK包进行安装。
  • 参考文档中提供的示例代码进行适当修改后调用。

6. 示例代码:该能力常用语言查询异步任务结果的示例代码,请参见查询异步任务结果示例代码

7. 客户端直接调用:该能力常用的客户端调用方式包括以下几种。

输入限制

  • 视频格式:AVI、MP4、H264。
  • 视频大小:小于20 MB。
  • 视频时长:小于60秒。
  • 视频帧率:不大于35帧。
  • 视频分辨率:大于20×20像素,小于4096×4096像素。
  • URL地址中不能包含中文字符。

计费说明

关于视频文字识别的计费方式及报价,请参见计费介绍

说明 下方调试接口为付费接口。

调用步骤

该能力为异步能力,需分两步进行调用。

第一步调用RecognizeVideoCharacter接口提交任务,请求成功后,得到一个任务ID。

第二步调用GetAsyncJobResult接口查询结果,根据任务ID查询任务执行状态和结果。如果任务还在处理中,可稍等一段时间后再进行查询。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

请求参数

名称

类型

是否必选

示例值

描述

Action String RecognizeVideoCharacter

系统规定参数。取值:RecognizeVideoCharacter

VideoURL String http://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/videoenhan/RecognizeVideoCharacter/xxxx.mp4

视频URL地址。推荐使用上海地域的OSS链接,对于文件在本地或者非上海地域OSS链接的情况,请参见文件URL处理

返回数据

名称

类型

示例值

描述

RequestId String D3F5BA69-79C4-46A4-B02B-58C4EEBC4C33

请求ID。

Data Object

返回的结果数据内容。

该数据需要在异步任务执行成功后,通过调用GetAsyncJobResult接口,对其Result字段进行JSON反序列化之后得到。

Width Long 1920

视频宽度分辨率,单位像素。

Height Long 1080

视频高度分辨率,单位像素。

Frames Array of Frame

视频帧的集合,空信息的帧不展示。

Timestamp Long 6124533574

帧时间戳,单位毫秒。

Elements Array of Element

文字区域元素列表

Score Float 0.99

文字区域概率,概率值的范围为[0.0,1.0]。

Text String 在桃花盛开的地方

文字内容。

TextRectangles Array of TextRectangle

文字区域位置信息。

Angle Long -90

文字区域角度,角度范围[-180, 180]。

Left Long 213

文字区域左上角X坐标。

Top Long 98

文字区域左上角Y坐标。

Width Long 46

文字区域宽度,单位像素。

Height Long 213

文字区域高度,单位像素。

InputFile String oss://my-bucket/a/b/c.mp4

输入视频文件OSS地址。

Message String 该调用为异步调用,任务已提交成功,请以requestId的值作为jobId参数调用同类目下GetAsyncJobResult接口查询任务执行状态和结果。

提交异步任务后的提示信息。

查询结果

该接口为异步接口,当前并未返回真实的请求结果,您需要通过返回的RequestId调用GetAsyncJobResult接口来获取该接口的真实请求结果。详情请参见GetAsyncJobResult

SDK参考

阿里云视觉AI文字识别类目下的视频文字识别能力推荐使用SDK调用,支持多种编程语言,调用时请选择AI类目为文字识别(ocr)的SDK包,文件参数通过SDK调用可支持本地文件及任意URL,具体可参见SDK总览

示例代码

该能力常用语言查询异步任务结果的示例代码,请参见查询异步任务结果示例代码

示例

请求示例

http(s)://ocr.cn-shanghai.aliyuncs.com/?Action=RecognizeVideoCharacter      //更多关于访问域名(Endpoint)信息,请参见:https://help.aliyun.com/document_detail/143103.html
&VideoURL=http://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/videoenhan/RecognizeVideoCharacter/xxxx.mp4
&公共请求参数

正常返回示例

XML格式

HTTP/1.1 200 OK
Content-Type:application/xml

<RecognizeVideoCharacterResponse>
    <RequestId>D3F5BA69-79C4-46A4-B02B-58C4EEBC4C33</RequestId>
    <Message>该调用为异步调用,任务已提交成功,请以requestId的值作为jobId参数调用同类目下GetAsyncJobResult接口查询任务执行状态和结果。</Message>
</RecognizeVideoCharacterResponse>

JSON格式

HTTP/1.1 200 OK
Content-Type:application/json

{
  "RequestId" : "D3F5BA69-79C4-46A4-B02B-58C4EEBC4C33",
  "Message" : "该调用为异步调用,任务已提交成功,请以requestId的值作为jobId参数调用同类目下GetAsyncJobResult接口查询任务执行状态和结果。"
}

返回示例补充说明

//查询结果:请求示例
http(s)://ocr.cn-shanghai.aliyuncs.com/?Action=GetAsyncJobResult
&JobId=E75FE679-0303-4DD1-8252-1143B4FA8A27
&<公共请求参数>

//查询结果:返回示例
{
  "RequestId" : "43A0AEB6-45F4-4138-8E89-E1A5D63200E3",
  "Data" : {
    "Status" : "PROCESS_SUCCESS",
    "JobId" : "186AC396-0EEC-46F1-AAA1-BF3585227427",
    "Result" : "Result" :"{\"Width\" : 1920,\"Height\" : 1080,\"Frames\" :\"Timestamp\" : 6124533574,\"Elements\":\"Score\":0.99,\"Text\":\"在桃花盛开的地方\",\"TextRectangles\":\"Angle\":-90,\"Left\":213,\"Top\": 98,\"Width\" : 46,\"Height\" : 213,\"InputFile\" : \"oss://my-bucket/a/b/c.mp4\"}"
  }
}

//Result反序列化
{
    "Width" : 1920,
    "Height" : 1080,
    "Frames" : [ {
      "Timestamp" : 6124533574,
      "Elements" : [ {
        "Score" : 0.99,
        "Text" : "在桃花盛开的地方",
        "TextRectangles" : [ {
          "Angle" : -90,
          "Left" : 213,
          "Top" : 98,
          "Width" : 46,
          "Height" : 213
        } ]
      } ]
    } ]
    "InputFile" : "oss://my-bucket/a/b/c.mp4"
}

错误码

关于视频文字识别的错误码,详情请参见常见错误码

安全声明

  • 请确保上传的图片或文件来源符合相应的法律法规。
  • 通过体验调试上传的临时文件有效期为1小时,在24小时后会被系统自动清理删除。