文档内容提取
您可以通过文档内容提取功能检提取文档中的文本内容。本文介绍如何使用文档内容提取功能。
限制说明
支持的文档格式
文档内容提取支持的文档类型及后缀如下表所示。
文档类型 | 文档后缀 |
Word | doc、docx |
PPT | ppt、pptx |
Excel | xls、xlsx |
TXT | txt |
文档大小限制
待提取文字的文档大小最大不超过20 MB。
提取后的纯文本文件大小不超过100 KB(约合3万中文字)。
前提条件
已创建并获取AccessKey。具体操作,请参见创建AccessKey。
已开通OSS服务、创建存储空间并上传文件到存储空间。具体操作,请参见控制台上传文件。
已开通智能媒体管理服务。具体操作,请参见开通产品。
已通过智能媒体管理控制台创建项目。具体操作,请参见创建项目。
说明您也可以调用API接口创建项目。具体操作,请参见CreateProject - 创建项目。
您可以调用ListProjects - 列出所有项目信息的列表接口列出指定地域下已创建的所有项目信息。
使用方法
调用ExtractDocumentText - 文档内容提取接口提取文档中的文本内容。
文档信息
IMM项目名称:test-project
待提取文字的文档存储地址:oss://test-bucket/test-object.docx
请求示例
{
"ProjectName": "test-project",
"SourceURI": "oss://test-bucket/test-object.docx"
}
返回示例
{
"DocumentText": "阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务",
"RequestId": "5C04D1DD-8B54-5670-9868-C30D186E5E20"
}
说明
返回示例显示该文档的文本内容为阿里云智能媒体管理IMM是阿里云提供的针对媒体数据的高级、智能管理服务。
示例代码
# -*- coding: utf-8 -*-
# This file is auto-generated, don't edit it. Thanks.
import sys
import os
from typing import List
from alibabacloud_imm20200930.client import Client as imm20200930Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_imm20200930 import models as imm_20200930_models
from alibabacloud_tea_util import models as util_models
from alibabacloud_tea_util.client import Client as UtilClient
class Sample:
def __init__(self):
pass
@staticmethod
def create_client(
access_key_id: str,
access_key_secret: str,
) -> imm20200930Client:
"""
使用AccessKey ID&AccessKey Secret初始化账号Client。
@param access_key_id:
@param access_key_secret:
@return: Client
@throws Exception
"""
config = open_api_models.Config(
access_key_id=access_key_id,
access_key_secret=access_key_secret
)
# 填写访问的域名。
config.endpoint = f'imm.cn-beijing.aliyuncs.com'
return imm20200930Client(config)
@staticmethod
def main(
args: List[str],
) -> None:
# 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
# 强烈建议不要把AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。
# 本示例通过从环境变量中读取AccessKey,来实现API访问的身份验证。如何配置环境变量,请参见https://help.aliyun.com/document_detail/2361894.html。
imm_access_key_id = os.getenv("AccessKeyId")
imm_access_key_secret = os.getenv("AccessKeySecret")
client = Sample.create_client(imm_access_key_id, imm_access_key_secret)
extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
project_name='test-project',
source_uri='oss://test-bucket/test-object.docx'
)
runtime = util_models.RuntimeOptions()
try:
# 复制代码运行请自行打印API的返回值。
client.extract_document_text_with_options(extract_document_text_request, runtime)
except Exception as error:
# 如有需要,请打印错误信息。
UtilClient.assert_as_string(error.message)
@staticmethod
async def main_async(
args: List[str],
) -> None:
# 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
# 强烈建议不要把AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。
# 本示例通过从环境变量中读取AccessKey,来实现API访问的身份验证。如何配置环境变量,请参见https://help.aliyun.com/document_detail/2361894.html。
imm_access_key_id = os.getenv("AccessKeyId")
imm_access_key_secret = os.getenv("AccessKeySecret")
client = Sample.create_client(imm_access_key_id, imm_access_key_secret)
extract_document_text_request = imm_20200930_models.ExtractDocumentTextRequest(
project_name='test-project',
source_uri='oss://test-bucket/test-object.docx'
)
runtime = util_models.RuntimeOptions()
try:
# 复制代码运行请自行打印API的返回值。
await client.extract_document_text_with_options_async(extract_document_text_request, runtime)
except Exception as error:
# 如有需要,请打印错误信息。
UtilClient.assert_as_string(error.message)
if __name__ == '__main__':
Sample.main(sys.argv[1:])