文档内容提取服务可以从多种格式的文档中自动提取文字,将目标文档内容转换为纯文本格式,支持多种语言和文档类型。本文介绍如何使用文档内容提取功能。
使用场景
搜索引擎优化:为了提高SEO效率,有时需要将其他格式的内容转换为纯文本格式,以便更容易地提取关键词和元数据。
编程和开发:在编程和软件开发中,源代码和配置文件经常需要以纯文本格式保存和分享。
清洗格式:将文档转换为纯文本格式的内容,可以移除所有的格式信息,留下纯文本内容。
限制说明
支持的文档格式
文档内容提取支持的文档类型及后缀如下表所示。
文档类型 | 文档后缀 |
Word | doc、docx |
PPT | ppt、pptx |
Excel | xls、xlsx |
TXT | txt |
文档大小限制
待提取文字的文档大小最大不超过20 MB。
提取后的纯文本文件大小不超过100 KB(约合3万中文字)。
若待提取文字的文档超过上述限制,可使用文档格式转换将目标文档转换为TXT格式。
前提条件
已创建并获取AccessKey。具体操作,请参见创建AccessKey。
已开通OSS服务、创建存储空间并上传文件到存储空间。具体操作,请参见控制台上传文件。
已开通智能媒体管理服务。具体操作,请参见开通产品。
已通过智能媒体管理控制台创建项目。具体操作,请参见创建项目。
说明您也可以调用API接口创建项目。具体操作,请参见CreateProject - 创建项目。
您可以调用ListProjects - 列出所有项目信息的列表接口列出指定地域下已创建的所有项目信息。
使用方法
调用ExtractDocumentText - 文档正文提取接口提取文档中的文本内容。
文档信息
IMM项目名称:test-project
待提取文字的文档存储地址:oss://test-bucket/test-object.docx
请求示例
{
"ProjectName": "test-project",
"SourceURI": "oss://test-bucket/test-object.docx"
}
返回示例
{
"DocumentText": "阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务",
"RequestId": "5C04D1DD-8B54-5670-9868-C30D186E5E20"
}
返回示例显示该文档的文本内容为阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务。(若提取文字含有换行和空格,会以转换符的形式保存在返回信息中。)
示例代码
# -*- coding: utf-8 -*-
# This file is auto-generated, don't edit it. Thanks.
import os
import sys
from typing import List
from alibabacloud_imm20200930.client import Client as imm20200930Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_imm20200930 import models as imm_20200930_models
from alibabacloud_tea_util import models as util_models
from alibabacloud_tea_util.client import Client as UtilClient
class Sample:
def __init__(self):
pass
@staticmethod
def create_client() -> imm20200930Client:
"""
使用AccessKey ID&AccessKey Secret初始化账号Client
@return: Client
@throws Exception
"""
# 工程代码泄露可能会导致 AccessKey 泄露,并威胁账号下所有资源的安全性。以下代码示例仅供参考。
# 建议使用更安全的 STS 方式,更多鉴权访问方式请参见:https://help.aliyun.com/document_detail/378659.html。
config = open_api_models.Config(
# 必填,请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_ID。,
access_key_id=os.environ['ALIBABA_CLOUD_ACCESS_KEY_ID'],
# 必填,请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_SECRET。,
access_key_secret=os.environ['ALIBABA_CLOUD_ACCESS_KEY_SECRET']
)
# Endpoint 请参考 https://api.aliyun.com/product/imm
config.endpoint = f'imm.cn-beijing.aliyuncs.com'
return imm20200930Client(config)
@staticmethod
def main(
args: List[str],
) -> None:
client = Sample.create_client()
extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
project_name='test-project',
source_uri='oss://test-bucket/test-object.docx'
)
runtime = util_models.RuntimeOptions()
try:
# 复制代码运行请自行打印 API 的返回值
client.extract_document_text_with_options(extract_document_text_request, runtime)
except Exception as error:
# 此处仅做打印展示,请谨慎对待异常处理,在工程项目中切勿直接忽略异常。
# 错误 message
print(error.message)
# 诊断地址
print(error.data.get("Recommend"))
UtilClient.assert_as_string(error.message)
@staticmethod
async def main_async(
args: List[str],
) -> None:
client = Sample.create_client()
extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
project_name='test-project',
source_uri='oss://test-bucket/test-object.docx'
)
runtime = util_models.RuntimeOptions()
try:
# 复制代码运行请自行打印 API 的返回值
await client.extract_document_text_with_options_async(extract_document_text_request, runtime)
except Exception as error:
# 此处仅做打印展示,请谨慎对待异常处理,在工程项目中切勿直接忽略异常。
# 错误 message
print(error.message)
# 诊断地址
print(error.data.get("Recommend"))
UtilClient.assert_as_string(error.message)
if __name__ == '__main__':
Sample.main(sys.argv[1:])