CreateIndex - 创建索引

创建一个非结构化知识库,并将一个或多个已解析的文档导入该知识库。暂不支持通过API创建结构化知识库,请通过控制台创建。

接口说明

  1. 您必须预先将您的原始文档上传至百炼的数据管理并获得相应的FileId,以作为创建知识库时的初始知识来源。可以调用 AddFile 接口上传。
  2. 本接口仅初始化知识库创建作业,接下来还需要再调用 SubmitIndexJob 接口以完成创建。
  3. 本接口不具备幂等性。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用背景高亮的方式表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
sfm:CreateIndexcreate
*全部资源
*

请求语法

POST /{WorkspaceId}/index/create HTTP/1.1

请求参数

名称类型必填描述示例值
WorkspaceIdstring

知识库所属的业务空间 ID。在百炼的控制台首页,单击页面左上角业务空间详情图标获取。

llm-3z7uw7fwz0vexxxx
Namestring

知识库的名称。长度为 1~20 个字符,支持 Unicode 中 letter 分类下的字符(其中包括英文、中文和数字等)。可以包含半角冒号(:)、下划线(_)、半角句号(.)或者短划线(-)。

企业帮助文档库
StructureTypestring

知识库的数据类型。更多信息,请参见知识库。取值范围:

  • unstructured:非结构化。
说明 请注意,知识库创建后将无法更改其数据类型,且管理结构化文档的知识库暂不支持通过 API 进行创建,请通过控制台创建此类知识库。
unstructured
EmbeddingModelNamestring

Embedding 模型名称。Embedding 模型用于将原始输入 prompt 和知识文本转化为数值化向量,以便对二者进行相似度比较。默认的 DashScope text-embedding-v2 模型(暂不支持更改)除了支持中英文双语外,还支持多种语言,并对向量结果进行归一化处理。更多信息,请参见知识库。取值范围:

  • text-embedding-v2:text-embedding-v2 模型。

默认值为空,采用 text-embedding-v2 模型。

text-embedding-v2
RerankModelNamestring

Rank 模型名称。Rank 模型是一种位于知识库外部的评分系统,它会计算用户问题与知识库中每个文本切片的相似度分数并按此降序排列,并返回分数最高的前 K 个文本切片。更多信息,请参见知识库。取值范围:

  • gte-rerank-hybrid:官方排序。
  • gte-rerank:gte-rerank 排序。

默认值为空,采用 gte-rerank-hybrid,即官方排序。

说明 如只需语义排序,建议您使用 gte-rerank 排序;若同时需要语义排序和文本匹配特征以确保相关性,则建议您采用官方排序。
gte-rerank-hybrid
RerankMinScoredouble

相似度阈值。该阈值表示允许召回的文本切片的最低相似度分数,用于筛选 Rank 模型返回的文本切片,即只有分数超过此数值的文本切片才会被召回。更多信息,请参见知识库。取值范围[0.01-1.00]。

默认值为 0.20。

0.20
ChunkSizeinteger

分段预估长度。它表示文本切片的字符数上限。超过该长度时,文本将被强制切割。更多信息,请参见知识库。取值范围[1-2048]。

默认值为空,采用智能切分策略。

说明 如果您指定了ChunkSize参数,则必须指定OverlapSize参数。您也可以不指定这 2 个参数,系统将默认采用智能切分策略。
128
OverlapSizeinteger

分段重叠长度。它表示当前文本切片与上一个文本切片的重叠字符数。更多信息,请参见知识库。取值范围[0-1024]。

默认值为空,采用智能切分策略。

16
Separatorstring

分句标识符。文档将按此标识符分割成小的文本切片。更多信息,请参见知识库。取值范围(支持同时传入多个分句标识符,多个分隔符之间无需使用特殊符号进行分割,直接连续书写即可,如!,\\n):

  • \n:换行符
  • ,:中文逗号
  • ,:英文逗号
  • 。:中文句号
  • .:英文句号
  • !:中文叹号
  • !:英文叹号
  • ;:中文分号
  • ;:英文分号
  • ?:中文问号
  • ?:英文问号

默认值为空,采用智能切分策略。

,
SourceTypestring

数据管理的数据类型。 更多信息,请参见知识库。取值范围:

  • DATA_CENTER_CATEGORY:类目类型,即导入数据中心指定类目下的所有文档,支持导入多个类目。
  • DATA_CENTER_FILE:文档类型,即导入数据中心下的指定文档,支持导入多个文档。
说明 如果本参数传入 DATA_CENTER_CATEGORY,则必须指定CategoryIds参数;如果本参数传入 DATA_CENTER_FILE,则必须指定DocumentIds参数。
说明 要创建空知识库,可以使用不含文件的空类目。本参数传入 DATA_CENTER_CATEGORY,CategoryIds则传入空类目 ID。
DATA_CENTER_FILE
DocumentIdsarray

导入知识库的文档 ID 列表。

string

文档 ID,即 AddFile 接口返回的FileId。您也可以在数据管理页面,单击文件名称旁的 ID 图标获取。

file_9a65732555b54d5ea10796ca5742ba22_xxxxxxxx
CategoryIdsarray

导入知识库的类目 ID 列表。

string

类目 ID,即AddCategory 接口返回的CategoryId。您也可以在数据管理页面,单击类目旁的图标获取。将指定类目 ID 下的文档导入知识库。

ca_hiu2383nfxxxx
DataSourceobject
说明 该参数暂不开放,请勿传入。
CredentialIdstring
说明 该参数暂不开放,请勿传入。
CredentialKeystring
说明 该参数暂不开放,请勿传入。
Databasestring
说明 该参数暂不开放,请勿传入。
Endpointstring
说明 该参数暂不开放,请勿传入。
Regionstring
说明 该参数暂不开放,请勿传入。
SubPathstring
说明 该参数暂不开放,请勿传入。
SubTypestring
说明 该参数暂不开放,请勿传入。
Tablestring
说明 该参数暂不开放,请勿传入。
Typestring
说明 该参数暂不开放,请勿传入。
SinkTypestring

知识库的向量存储类型。更多信息,请参见知识库。取值范围:

  • BUILT_IN:内置的向量数据库。
  • ADB:AnalyticDB for PostgreSQL 数据库。如需高级功能,如管理、审计和监控数据库,推荐选择 ADB。
说明 若您尚未在百炼上使用过 ADB 存储,可前往创建知识库页面选择向量存储类型为 ADB-PG,并按界面提示完成授权。如果您传入了 ADB,则必须指定SinkInstanceIdSinkRegion参数。
BUILT_IN
SinkInstanceIdstring

知识库的向量存储的实例 ID(仅在向量存储类型是 ADB 时传入)。您可以前往AnalyticDB for PostgreSQL 数据实例列表页面获取此 ID。

gp-bp32109xxxx
SinkRegionstring

知识库的向量存储的实例地域(仅在向量存储类型是 ADB 时传入)。您可以调用 DescribeRegions 查看最新的阿里云地域列表。

cn-hangzhou
Columnsarray<object>
说明 该参数暂不开放,请勿传入。
object
Columnstring
说明 该参数暂不开放,请勿传入。
school
IsRecallboolean
说明 该参数暂不开放,请勿传入。
true
IsSearchboolean
说明 该参数暂不开放,请勿传入。
true
Namestring
说明 该参数暂不开放,请勿传入。
学校
Typestring
说明 该参数暂不开放,请勿传入。
string
Descriptionstring

知识库描述。长度为 0~1000 个英文或中文字符。 默认值为空。

企业帮助文档库包括了公司制度、产品清单等重要资料。
metaExtractColumnsarray<object>

metadata 抽取信息

object
Keystring

字段名,英文

file_name
Valuestring

测试文件.txt
Typestring

取值方法

枚举值:
  • constant常量抽取
  • keywords关键词抽取
  • custom_prompt大模型
  • variable变量抽取
  • regular正则
custom_prompt
Descstring

字段描述

文件名
EnableLlmboolean

是否参与检索

true
EnableSearchboolean

是否参与模型回复

true

返回参数

名称类型描述示例值
object

Schema of Response

Codestring

错误状态码。

Index.Forbidden
Dataobject

接口业务数据字段。

Idstring

知识库 ID,又称IndexId

说明 请妥善保管该值,它将用于后续所有与此知识库相关的 API 操作。
jkurxhxxxx
Messagestring

错误信息。

Invalid input, variable name is missing
RequestIdstring

请求 ID。

17204B98-xxxx-4F9A--2446A84821CA
Statusstring

接口返回的状态码。

200
Successboolean

接口调用是否成功,可能值为:

  • true:成功。
  • false:失败。
true

示例

正常返回示例

JSON格式

{
  "Code": "Index.Forbidden",
  "Data": {
    "Id": "jkurxhxxxx"
  },
  "Message": "Invalid input, variable name is missing",
  "RequestId": "17204B98-xxxx-4F9A--2446A84821CA",
  "Status": "200",
  "Success": true
}

错误码

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
暂无变更历史