UploadDocumentAsync - 异步上传文档_云原生数据仓库AnalyticDB(AnalyticDB)-阿里云帮助中心

异步上传文档。

接口说明

服务器根据文件扩展名加载并分割文档，使用在调用 CreateDocumentCollection 操作时指定的嵌入模型进行向量化处理，然后将文档写入指定的文档集合。此操作支持多种格式的文本和图像的多模态嵌入。

调试

您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

下表是API对应的授权信息，可以在RAM权限策略语句的Action元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：

操作：是指具体的权限点。
访问级别：是指每个操作的访问级别，取值为写入（Write）、读取（Read）或列出（List）。
资源类型：是指操作中支持授权的资源类型。具体说明如下：
- 对于必选的资源类型，用前面加 * 表示。
- 对于不支持资源级授权的操作，用全部资源表示。
条件关键字：是指云产品自身定义的条件关键字。
关联操作：是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限，操作才能成功。

操作	访问级别	资源类型	条件关键字	关联操作

操作	访问级别	资源类型	条件关键字	关联操作
gpdb:UploadDocumentAsync	create	*Document `acs:gpdb:{#regionId}:{#accountId}:document/{#DBInstanceId}`	无	无

请求参数

名称	类型	必填	描述	示例值

名称	类型	必填	描述	示例值
DBInstanceId	string	是	启用了向量引擎优化加速的实例 ID。您可以调用 DescribeDBInstances API 来查看目标区域中所有 AnalyticDB PostgreSQL 实例的详细信息，包括实例 ID。	gp-bp12ga6v69h86****
Collection	string	是	文档库的名称。说明由 CreateDocumentCollection API 创建. 您可以调用 ListDocumentCollections API 来查看已创建的文档库。	document
Namespace	string	否	命名空间，默认为 public。您可以通过 CreateNamespace 接口创建一个命名空间，并通过 ListNamespaces 接口查看命名空间列表。	mynamespace
NamespacePassword	string	是	对应于命名空间的密码。该值由 CreateNamespace 接口指定。	testpassword
RegionId	string	是	实例的区域 ID。	cn-hangzhou
FileName	string	是	文档的文件名。说明我们建议您在文件名中添加扩展名。例如：.json、.md 和 .pdf。如果您不添加扩展名，默认将使用为非结构化数据设计的加载器。如果涉及图像文件，文件名必须包含扩展名。支持的扩展名包括：.bmp、.jpg、.jpeg、.png 和 .tiff。您可以使用压缩包上传图像。压缩包的文件名必须包含扩展名。支持的压缩包扩展名包括：.tar、.gz 和 .zip。	mydoc.txt
FileUrl	string	是	公开访问文档的 URL。说明建议使用 SDK 调用此接口，SDK 提供了一个名为 UploadDocumentAsyncAdvance 的方法，可以直接上传本地文件。如果是图像归档 URL，当前归档中的图像数量不应超过 100 个	https://xx/mydoc.txt
Metadata	object	否	元数据。此参数的值必须与调用 CreateDocumentCollection 操作时指定的 Metadata 参数相同。
	any	否	元数据信息，需和创建文档库（CreateDocumentCollection）时指定的 Metadata 字段一致。	{"title":"mytitle","page":1}
ChunkSize	integer	否	处理大数据的策略：当数据被分割成较小的部分时，每块的大小。最大值为 2048。	250
ChunkOverlap	integer	否	连续块之间重叠的数据大小。此参数的最大值不能大于 ChunkSize 参数的值。说明该参数用于防止由于数据截断而导致的上下文丢失。例如，当您上传长文本时，可以在连续的块之间保留特定的重叠文本内容，以便更好地理解上下文。	50
Separators	array	否	用于分割大量数据的分隔符。说明这是一个重要的参数，决定了数据分块的效果。此参数与由 TextSplitterName 参数指定的分隔器相关。在大多数情况下，您不需要指定此参数。服务器会根据 TextSplitterName 参数的值来分配分隔符。
	string	否	分隔符。	.
DryRun	boolean	否	指定是否仅执行文档理解和分块，而不进行向量化和存储。默认值为 false。说明您可以将此参数设置为 true，检查分块效果，然后根据需要进行优化。	false
ZhTitleEnhance	boolean	否	指定是否启用标题增强。说明您可以确定标题文本，在元数据中标记该文本，然后将该文本与上一级标题结合，以实现文本增强。	false
TextSplitterName	string	否	分隔器的名称。有效值包括： ChineseRecursiveTextSplitter：继承自 RecursiveCharacterTextSplitter, 默认使用`["\n\n","\n", "。\|!\|?", "\.\s\|\!\s\|\?\s", ";\|;\s", ",\|,\s"]` 为分隔符，并使用正则表达式来匹配文本。 RecursiveCharacterTextSplitter: 默认使用`["\n\n", "\n", " ", ""]` 作为分隔符。该分隔器支持分割如 C++, Go, Java, JS, PHP, Proto, Python, RST, Ruby, Rust, Scala, Swift, Markdown, LaTeX, HTML, Sol, 和 C Sharp 等语言的代码. SpacyTextSplitter: 默认使用`\n\n` 作为分隔符，并使用 spaCy 的 en_core_web_sm 模型。该分隔器可以获得更好的分割效果。 MarkdownHeaderTextSplitter: 以[("#", "head1"), ("##", "head2"), ("###", "head3"), ("####", "head4")格式分割文本。该分隔器适用于 Markdown 文本。	ChineseRecursiveTextSplitter
DocumentLoaderName	string	否	文档加载器的名称。您不需要指定此参数，系统会根据文件扩展名自动选择相应的文档加载器。有效值包括： UnstructuredHTMLLoader：.html UnstructuredMarkdownLoader：.md PyMuPDFLoader：.pdf PyPDFLoader：.pdf RapidOCRPDFLoader：.pdf PDFWithImageRefLoader：.pdf (with the text-image association feature) JSONLoader：.json CSVLoader：.csv RapidOCRLoader：.png，.jpg，.jpeg 和.bmp UnstructuredFileLoader: .eml, .msg, .rst, .txt, .docx, .epub, .odt, .pptx, 和 .tsv	PyMuPDFLoader

返回参数

名称	类型	描述	示例值

名称	类型	描述	示例值
	object
RequestId	string	请求 ID。	ABB39CC3-4488-4857-905D-2E4A051D0521
Message	string	返回信息。	success
Status	string	创建状态，值描述：success：成功。fail：失败。	success
JobId	string	任务 ID，用于后续检查任务状态或取消任务。	231460f8-75dc-405e-a669-0c5204887e91

示例

正常返回示例

JSON格式

        
{
  "RequestId": "ABB39CC3-4488-4857-905D-2E4A051D0521",
  "Message": "success",
  "Status": "success",
  "JobId": "231460f8-75dc-405e-a669-0c5204887e91"
}

错误码

访问错误中心查看更多错误码。