文档

文档内容提取

文档内容提取服务可以从多种格式的文档中自动提取文字,将目标文档内容转换为纯文本格式,支持多种语言和文档类型。本文介绍如何使用文档内容提取功能。

使用场景

  • 搜索引擎优化:为了提高SEO效率,有时需要将其他格式的内容转换为纯文本格式,以便更容易地提取关键词和元数据。

  • 编程和开发:在编程和软件开发中,源代码和配置文件经常需要以纯文本格式保存和分享。

  • 清洗格式:将文档转换为纯文本格式的内容,可以移除所有的格式信息,留下纯文本内容。

限制说明

支持的文档格式

文档内容提取支持的文档类型及后缀如下表所示。

文档类型

文档后缀

Word

doc、docx

PPT

ppt、pptx

Excel

xls、xlsx

PDF

pdf

TXT

txt

文档大小限制

  • 待提取文字的文档大小最大不超过20 MB。

  • 提取后的纯文本文件大小不超过100 KB(约合3万中文字)。

说明

若待提取文字的文档超过上述限制,可使用文档格式转换将目标文档转换为TXT格式。

前提条件

使用方法

调用ExtractDocumentText - 文档正文提取接口提取文档中的文本内容。

文档信息

  • IMM项目名称:test-project

  • 待提取文字的文档存储地址:oss://test-bucket/test-object.docx

请求示例

{
  "ProjectName": "test-project",
  "SourceURI": "oss://test-bucket/test-object.docx"
}

返回示例

{
  "DocumentText": "阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务",
  "RequestId": "5C04D1DD-8B54-5670-9868-C30D186E5E20"
}
说明

返回示例显示该文档的文本内容为阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务。(若提取文字含有换行和空格,会以转换符的形式保存在返回信息中。)

示例代码

# -*- coding: utf-8 -*-
# This file is auto-generated, don't edit it. Thanks.
import sys
import os
from typing import List

from alibabacloud_imm20200930.client import Client as imm20200930Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_imm20200930 import models as imm_20200930_models
from alibabacloud_tea_util import models as util_models
from alibabacloud_tea_util.client import Client as UtilClient


class Sample:
    def __init__(self):
        pass

    @staticmethod
    def create_client(
        access_key_id: str,
        access_key_secret: str,
    ) -> imm20200930Client:
        """
        使用AccessKey ID&AccessKey Secret初始化账号Client。
        @param access_key_id:
        @param access_key_secret:
        @return: Client
        @throws Exception
        """
        config = open_api_models.Config(
            access_key_id=access_key_id,
            access_key_secret=access_key_secret
        )
        # 填写访问的域名。
        config.endpoint = f'imm.cn-beijing.aliyuncs.com'
        return imm20200930Client(config)

    @staticmethod
    def main(
        args: List[str],
    ) -> None:
        # 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
        # 强烈建议不要把AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。
        # 本示例通过从环境变量中读取AccessKey,来实现API访问的身份验证。如何配置环境变量,请参见https://help.aliyun.com/document_detail/2361894.html。
        imm_access_key_id = os.getenv("AccessKeyId")
        imm_access_key_secret = os.getenv("AccessKeySecret")
        client = Sample.create_client(imm_access_key_id, imm_access_key_secret)
        extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
            project_name='test-project',
            source_uri='oss://test-bucket/test-object.docx'
        )
        runtime = util_models.RuntimeOptions()
        try:
            # 复制代码运行请自行打印API的返回值。
            client.extract_document_text_with_options(extract_document_text_request, runtime)
        except Exception as error:
            # 如有需要,请打印错误信息。
            UtilClient.assert_as_string(error.message)

    @staticmethod
    async def main_async(
        args: List[str],
    ) -> None:
        # 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
        # 强烈建议不要把AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。
        # 本示例通过从环境变量中读取AccessKey,来实现API访问的身份验证。如何配置环境变量,请参见https://help.aliyun.com/document_detail/2361894.html。
        imm_access_key_id = os.getenv("AccessKeyId")
        imm_access_key_secret = os.getenv("AccessKeySecret")
        client = Sample.create_client(imm_access_key_id, imm_access_key_secret)
        extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
            project_name='test-project',
            source_uri='oss://test-bucket/test-object.docx'
        )
        runtime = util_models.RuntimeOptions()
        try:
            # 复制代码运行请自行打印API的返回值。
            await client.extract_document_text_with_options_async(extract_document_text_request, runtime)
        except Exception as error:
            # 如有需要,请打印错误信息。
            UtilClient.assert_as_string(error.message)


if __name__ == '__main__':
    Sample.main(sys.argv[1:])
  • 本页导读 (1)
文档反馈