ExtractDocumentText - 文档正文提取

提取文档文件正文中的文本。

接口说明

  • 请确保在使用该接口前,已充分了解智能媒体管理产品的收费方式和价格

  • 调用该接口前,请确保当前 Region 已经存在可用的项目( Project ),详见项目管理

  • 支持常见的 Word、Excel、PPT、PDF、TXT 文档。

  • 文件大小最大不超过 200 MB。提取后的纯文本文件大小不超过 2 MB(约合 60 万中文字)。

注意 当文档格式较为复杂,或正文量过大时,可能出现超时错误。在此类场景建议使用 CreateOfficeConversionTask 接口,并将输出格式指定为 txt 来实现类似功能。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用背景高亮的方式表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
imm:ExtractDocumentTextnone
*Project
acs:imm:{#regionId}:{#accountId}:project/{#ProjectName}

请求参数

名称类型必填描述示例值
ProjectNamestring

项目名称,获取方式请参见创建项目

immtest
SourceURIstring

源数据的存储地址。

OSS 地址规则为 oss://${Bucket}/${Object},其中${Bucket}为和当前项目处于同一区域(Region)的 OSS Bucket 名称,${Object}为包含文件扩展名的文件完整路径。

注意 当前仅支持 http 协议地址。

oss://test-bucket/test-object
SourceTypestring

源数据的后缀类型。默认根据输入对象的后缀名确定源数据的类型。当输入对象没有后缀名时,可以设置此参数,可选值如下。

  • 文字文档(Word):doc、docx、wps、wpss、docm、dotm、dot、dotx、html
  • 演示文档(PPT):pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm、dpss
  • 表格文档(Excel):xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets
  • PDF 文档:pdf
docx
CredentialConfigCredentialConfig

如无特殊需求,请保持留空即可。

链式授权配置,非必填。更多信息,请参见使用链式授权访问其他实体资源

返回参数

名称类型描述示例值
object

响应体结构。

RequestIdstring

请求 ID。

94D6F994-E298-037E-8E8B-0090F27*****
DocumentTextstring

文档的文本正文内容。

测试内容。

示例

正常返回示例

JSON格式

{
  "RequestId": "94D6F994-E298-037E-8E8B-0090F27*****",
  "DocumentText": "测试内容。"
}

错误码

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
2023-12-13OpenAPI 入参发生变更查看变更详情