文档内容提取

更新时间: 2023-08-29 11:24:16

您可以通过文档内容提取功能检提取文档中的文本内容。本文介绍如何使用文档内容提取功能。

限制说明

支持的文档格式

文档内容提取支持的文档类型及后缀如下表所示。

文档类型

文档后缀

Word

doc、docx

PPT

ppt、pptx

Excel

xls、xlsx

PDF

pdf

TXT

txt

文档大小限制

  • 待提取文字的文档大小最大不超过20 MB。

  • 提取后的纯文本文件大小不超过100 KB(约合3万中文字)。

前提条件

使用方法

调用ExtractDocumentText - 文档内容提取接口提取文档中的文本内容。

文档信息

  • IMM项目名称:test-project

  • 待提取文字的文档存储地址:oss://test-bucket/test-object.docx

请求示例

{
  "ProjectName": "test-project",
  "SourceURI": "oss://test-bucket/test-object.docx"
}

返回示例

{
  "DocumentText": "阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务",
  "RequestId": "5C04D1DD-8B54-5670-9868-C30D186E5E20"
}
说明

返回示例显示该文档的文本内容为阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务

示例代码

# -*- coding: utf-8 -*-
# This file is auto-generated, don't edit it. Thanks.
import sys
import os
from typing import List

from alibabacloud_imm20200930.client import Client as imm20200930Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_imm20200930 import models as imm_20200930_models
from alibabacloud_tea_util import models as util_models
from alibabacloud_tea_util.client import Client as UtilClient


class Sample:
    def __init__(self):
        pass

    @staticmethod
    def create_client(
        access_key_id: str,
        access_key_secret: str,
    ) -> imm20200930Client:
        """
        使用AccessKey ID&AccessKey Secret初始化账号Client。
        @param access_key_id:
        @param access_key_secret:
        @return: Client
        @throws Exception
        """
        config = open_api_models.Config(
            access_key_id=access_key_id,
            access_key_secret=access_key_secret
        )
        # 填写访问的域名。
        config.endpoint = f'imm.cn-beijing.aliyuncs.com'
        return imm20200930Client(config)

    @staticmethod
    def main(
        args: List[str],
    ) -> None:
        # 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
        # 强烈建议不要把AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。
        # 本示例通过从环境变量中读取AccessKey,来实现API访问的身份验证。如何配置环境变量,请参见https://help.aliyun.com/document_detail/2361894.html。
        imm_access_key_id = os.getenv("AccessKeyId")
        imm_access_key_secret = os.getenv("AccessKeySecret")
        client = Sample.create_client(imm_access_key_id, imm_access_key_secret)
        extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
            project_name='test-project',
            source_uri='oss://test-bucket/test-object.docx'
        )
        runtime = util_models.RuntimeOptions()
        try:
            # 复制代码运行请自行打印API的返回值。
            client.extract_document_text_with_options(extract_document_text_request, runtime)
        except Exception as error:
            # 如有需要,请打印错误信息。
            UtilClient.assert_as_string(error.message)

    @staticmethod
    async def main_async(
        args: List[str],
    ) -> None:
        # 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
        # 强烈建议不要把AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。
        # 本示例通过从环境变量中读取AccessKey,来实现API访问的身份验证。如何配置环境变量,请参见https://help.aliyun.com/document_detail/2361894.html。
        imm_access_key_id = os.getenv("AccessKeyId")
        imm_access_key_secret = os.getenv("AccessKeySecret")
        client = Sample.create_client(imm_access_key_id, imm_access_key_secret)
        extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
            project_name='test-project',
            source_uri='oss://test-bucket/test-object.docx'
        )
        runtime = util_models.RuntimeOptions()
        try:
            # 复制代码运行请自行打印API的返回值。
            await client.extract_document_text_with_options_async(extract_document_text_request, runtime)
        except Exception as error:
            # 如有需要,请打印错误信息。
            UtilClient.assert_as_string(error.message)


if __name__ == '__main__':
    Sample.main(sys.argv[1:])
阿里云首页 智能媒体管理 相关技术圈