文档内容提取

文档内容提取服务可以从多种格式的文档中自动提取文字,将目标文档内容转换为纯文本格式,支持多种语言和文档类型。本文介绍如何使用文档内容提取功能。

使用场景

  • 搜索引擎优化:为了提高SEO效率,有时需要将其他格式的内容转换为纯文本格式,以便更容易地提取关键词和元数据。

  • 编程和开发:在编程和软件开发中,源代码和配置文件经常需要以纯文本格式保存和分享。

  • 清洗格式:将文档转换为纯文本格式的内容,可以移除所有的格式信息,留下纯文本内容。

限制说明

支持的文档格式

文档内容提取支持的文档类型及后缀如下表所示。

文档类型

文档后缀

Word

doc、docx

PPT

ppt、pptx

Excel

xls、xlsx

PDF

pdf

TXT

txt

文档大小限制

  • 待提取文字的文档大小最大不超过20 MB。

  • 提取后的纯文本文件大小不超过100 KB(约合3万中文字)。

说明

若待提取文字的文档超过上述限制,可使用文档格式转换将目标文档转换为TXT格式。

前提条件

使用方法

调用ExtractDocumentText - 文档正文提取接口提取文档中的文本内容。

文档信息

  • IMM项目名称:test-project

  • 待提取文字的文档存储地址:oss://test-bucket/test-object.docx

请求示例

{
  "ProjectName": "test-project",
  "SourceURI": "oss://test-bucket/test-object.docx"
}

返回示例

{
  "DocumentText": "阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务",
  "RequestId": "5C04D1DD-8B54-5670-9868-C30D186E5E20"
}
说明

返回示例显示该文档的文本内容为阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务。(若提取文字含有换行和空格,会以转换符的形式保存在返回信息中。)

示例代码

# -*- coding: utf-8 -*-
# This file is auto-generated, don't edit it. Thanks.
import os
import sys

from typing import List

from alibabacloud_imm20200930.client import Client as imm20200930Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_imm20200930 import models as imm_20200930_models
from alibabacloud_tea_util import models as util_models
from alibabacloud_tea_util.client import Client as UtilClient


class Sample:
    def __init__(self):
        pass

    @staticmethod
    def create_client() -> imm20200930Client:
        """
        使用AccessKey ID&AccessKey Secret初始化账号Client
        @return: Client
        @throws Exception
        """
        # 工程代码泄露可能会导致 AccessKey 泄露,并威胁账号下所有资源的安全性。以下代码示例仅供参考。
        # 建议使用更安全的 STS 方式,更多鉴权访问方式请参见:https://help.aliyun.com/document_detail/378659.html。
        config = open_api_models.Config(
            # 必填,请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_ID。,
            access_key_id=os.environ['ALIBABA_CLOUD_ACCESS_KEY_ID'],
            # 必填,请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_SECRET。,
            access_key_secret=os.environ['ALIBABA_CLOUD_ACCESS_KEY_SECRET']
        )
        # Endpoint 请参考 https://api.aliyun.com/product/imm
        config.endpoint = f'imm.cn-beijing.aliyuncs.com'
        return imm20200930Client(config)

    @staticmethod
    def main(
        args: List[str],
    ) -> None:
        client = Sample.create_client()
        extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
            project_name='test-project',
            source_uri='oss://test-bucket/test-object.docx'
        )
        runtime = util_models.RuntimeOptions()
        try:
            # 复制代码运行请自行打印 API 的返回值
            client.extract_document_text_with_options(extract_document_text_request, runtime)
        except Exception as error:
            # 此处仅做打印展示,请谨慎对待异常处理,在工程项目中切勿直接忽略异常。
            # 错误 message
            print(error.message)
            # 诊断地址
            print(error.data.get("Recommend"))
            UtilClient.assert_as_string(error.message)

    @staticmethod
    async def main_async(
        args: List[str],
    ) -> None:
        client = Sample.create_client()
        extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
            project_name='test-project',
            source_uri='oss://test-bucket/test-object.docx'
        )
        runtime = util_models.RuntimeOptions()
        try:
            # 复制代码运行请自行打印 API 的返回值
            await client.extract_document_text_with_options_async(extract_document_text_request, runtime)
        except Exception as error:
            # 此处仅做打印展示,请谨慎对待异常处理,在工程项目中切勿直接忽略异常。
            # 错误 message
            print(error.message)
            # 诊断地址
            print(error.data.get("Recommend"))
            UtilClient.assert_as_string(error.message)


if __name__ == '__main__':
    Sample.main(sys.argv[1:])