SubmitIndexAddDocumentsJob - 提交索引追加任务

向一个非结构化知识库追加导入已解析的文档。结构化知识库暂不支持通过API追加导入新知识,详情请参见下方接口说明。

接口说明

  • 关于向结构化知识库追加导入新知识,详情请参见更新知识库
  • RAM 用户(子账号)需要首先获取阿里云百炼的 API 权限(需要AliyunBailianDataFullAccess,已包括 sfm:SubmitIndexAddDocumentsJob 权限点),并加入一个业务空间后,方可调用本接口。阿里云账号(主账号)可直接调用无须授权。建议您通过最新版阿里云百炼 SDK来调用本接口。
  • 调用本接口前,请确保您的知识库已经创建完成且未被删除(即知识库 IDIndexId有效)。
  • 调用该接口前,请先调用 AddFile 接口将您需要追加导入的文档上传至阿里云百炼。
  • 调用本接口后,任务需一定时间执行,高峰期可能耗时数小时。任务完成前请勿重复发起请求。如果需要查询任务的执行状态,可调用 GetIndexJobStatus 接口查询。此接口返回的文档列表Documents为您本次追加(由您提供的job_id唯一确定)全部文档,您可以查看每个文档是否导入(解析)成功。注意频繁调用 GetIndexJobStatus 接口会被限流,频率请勿高于 20 次/分钟。
  • 本接口调用成功后,将执行一段时间,请求返回前请勿重复发起请求。本接口不具备幂等性。

限流说明: 本接口频繁调用会被限流,频率请勿超过 10 次/秒。如遇限流,请稍后重试。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用前面加 * 表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
sfm:SubmitIndexAddDocumentsJobcreate
*全部资源
*

请求语法

POST /{WorkspaceId}/index/add_documents_to_index HTTP/1.1

请求参数

名称类型必填描述示例值
WorkspaceIdstring

知识库所属的业务空间 ID。获取方式请参见如何使用业务空间

llm-3shx2gu255oqxxxx
IndexIdstring

知识库 ID,即 CreateIndex 接口返回的Data.Id

79c0alxxxx
SourceTypestring

应用数据的数据类型。 更多信息,请参见知识库。取值范围:

  • DATA_CENTER_CATEGORY:类目类型,即导入应用数据中指定类目下的所有文档,支持导入多个类目。
  • DATA_CENTER_FILE:文档类型,即导入应用数据下的指定文档,支持导入多个文档。
说明 如果本参数传入 DATA_CENTER_CATEGORY,则必须指定CategoryIds参数;如果本参数传入 DATA_CENTER_FILE,则必须指定DocumentIds参数。
DATA_CENTER_FILE
DocumentIdsarray

文档 ID 列表。

string

文档 ID,即 AddFile 接口返回的FileId。您也可以在应用数据页面,单击文件名称旁的 ID 图标获取。

doc_ea4a504d9ce545508d8aa6d90371bf54xxxxxxxx
CategoryIdsarray

类目 ID 列表。

string

类目 ID,即 AddCategory 接口返回的CategoryId。您也可以在应用数据-非结构化数据页签,单击类目旁的 ID 图标获取。

cate_21a407a3372c4ba7aedc649709143f0cxxxxxxxx
ChunkModestring

启用自定义切分(仅对您本次追加的文档生效)。更多信息,请参见知识库。可能取值(不支持同时传入多个值):

  • length:按长度切分。严格按照您指定的ChunkSizeOverlapSize切分。 若您未传入这两个参数,系统将采用默认值(ChunkSize为 500,OverlapSize为 100)。按长度切分不支持Separator(即使传入也不生效)。
  • page:按页切分。如果指定了ChunkSize,切分时将一并考虑(未传入时,将使用默认值 500)。按页切分不支持OverlapSizeSeparator(即使传入也不生效)。
  • h1:按照一级标题切分。如果指定了ChunkSize,切分时将一并考虑(未传入时,将使用默认值 500)。按照一级标题切分不支持OverlapSizeSeparator(即使传入也不生效)。
  • h2:按照二级标题切分。如果指定了ChunkSize,切分时将一并考虑(未传入时,将使用默认值 500)。按照二级标题切分不支持OverlapSizeSeparator(即使传入也不生效)。
  • regex:按照正则切分,此时必须指定Separator参数。如果指定了ChunkSize,切分时将一并考虑(未传入时,将使用默认值 500)。按正则切分不支持OverlapSize(即使传入也不生效)。

默认值为空,采用智能切分。

length
Separatorstring

分句标识符,仅在chunkMode=regex 时生效(否则即使传入也不生效)。可传入一个正则表达式(不支持多个),用于将文档分割为小段的文本切片。更多信息,请参见知识库

使用智能切分(未指定chunkMode)时,保持默认空值即可。

(?<=。)
ChunkSizeinteger

分段长度,即您希望每个文本切片的字符数上限(仅对您本次追加的文档生效)。超过该长度时:

  • 智能切分(未指定chunkMode):文本很可能会被截断。
  • 自定义切分(指定了chunkMode):文本将被强制切割。

取值范围[1-6000]。如果未传入本参数,将使用默认值 500。

更多信息,请参见知识库

说明 请注意,如果您指定了ChunkSize参数且小于 100,则必须指定OverlapSize参数。您也可以不指定这 2 个参数(系统将采用默认值)。
128
OverlapSizeinteger

分段重叠长度(仅对您本次追加的文档生效)。它表示当前文本切片与上一个文本切片的重叠字符数。更多信息,请参见知识库。取值范围[0-1024]。

如果未传入本参数,将使用默认值 100。

说明 请注意,OverlapSize的值必须小于ChunkSize的值,否则会导致切分异常。
16
EnableHeadersboolean

非结构化知识库中 Excel 文档表头是否支持拼装。开启后,知识库会将所有 xlsx、xls 格式文档的首行数据视为表头,并自动拼接到每个文本切片中(数据行),避免大模型误将表头视为普通数据行来处理。

说明 建议仅在导入文档均为 xlsx、xls 格式且含表头时开启,否则无需开启。

取值范围:

  • true:开启。
  • false:不开启。

默认值为 false,即不开启。

false

返回参数

名称类型描述示例值
object

Schema of Response

RequestIdstring

请求 ID。

778C0B3B-xxxx-5FC1-A947-36EDD13606AB
Dataobject

接口返回的业务字段。

Idstring

任务 ID,又称JobId

42687eb254a34802bed398357f5498ae
Statusstring

接口返回的状态码。

200
Successboolean

接口调用是否成功,可能值为:

  • true:成功。
  • false:失败。
true
Messagestring

错误信息。

Required parameter(%s) missing or invalid, please check the request parameters.
Codestring

错误状态码。

Index.InvalidParameter

示例

正常返回示例

JSON格式

{
  "RequestId": "778C0B3B-xxxx-5FC1-A947-36EDD13606AB",
  "Data": {
    "Id": "42687eb254a34802bed398357f5498ae"
  },
  "Status": 200,
  "Success": true,
  "Message": "Required parameter(%s) missing or invalid, please check the request parameters.",
  "Code": "Index.InvalidParameter"
}

错误码

HTTP status code错误码错误信息
400IdempotentParameterMismatchThe request uses the same client token as a previous, but non-identical request. Do not reuse a client token with different requests, unless the requests are identical.

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
暂无变更历史