ExtractDocumentText - 文档内容提取

更新时间: 2023-07-13 11:14:18

提取办公文档的正文文本内容。

接口说明

  • 支持Word、Excel、PPT、PDF、TXT等文档。具体支持情况和来源文档格式有关。
  • 文件大小最大不超过200 MB。提取后的纯文本文件大小不超过2 MB(约合60万中文字)。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

当前API暂无授权信息透出。

请求参数

名称类型必填描述示例值
ProjectNamestring

项目名称。

immtest
SourceURIstring

源数据的存储地址。

OSS地址规则为oss://${Bucket}/${Object},其中${Bucket}为和当前项目处于同一区域(Region)的OSS Bucket名称,${Object}为包含文件扩展名的文件完整路径。

oss://test-bucket/test-object
CredentialConfigCredentialConfig

链式授权配置,非必填。更多信息,请参见使用链式授权访问其他实体资源

返回参数

名称类型描述示例值
object

响应体结构。

RequestIdstring

请求ID。

94D6F994-E298-037E-8E8B-0090F27*****
DocumentTextstring

文档的文本正文内容。

测试内容。

示例

正常返回示例

JSON格式

{
  "RequestId": "94D6F994-E298-037E-8E8B-0090F27*****",
  "DocumentText": "测试内容。"
}

错误码

访问错误中心查看更多错误码。

阿里云首页 智能媒体管理 相关技术圈