CreateDatasetJob - 创建数据集任务

创建数据集任务。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。

  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。

  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:

    • 对于必选的资源类型,用前面加 * 表示。

    • 对于不支持资源级授权的操作,用全部资源表示。

  • 条件关键字:是指云产品自身定义的条件关键字。

  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。

操作

访问级别

资源类型

条件关键字

关联操作

paidataset:CreateDatasetJob

create

*全部资源

*

请求语法

POST /api/v1/datasets/{DatasetId}/datasetjobs HTTP/1.1

请求参数

名称

类型

必填

描述

示例值

DatasetId

string

数据集 ID。如何获取数据集 ID,详情请参见 ListDatasets

d-rbvg5wz****c9ks92

body

object

请求体。

DatasetVersion

string

数据集版本名称。

v1

WorkspaceId

string

工作空间 ID。如何获取工作空间 ID,请参见 ListWorkspaces

478**

JobAction

string

任务操作。

  • SemanticIndex: 语义索引

  • IntelligentTag: 智能打标

  • FileMetaExport: 元数据导出

  • FileMetaBuild: 构建更新元数据

  • IntelligentTagRevert: 智能打标撤回

  • FileMetaImport: 元数据导入

枚举值:

  • IntelligentTagRevert :

    IntelligentTagRevert

  • SemanticIndex :

    SemanticIndex

  • FileMetaImport :

    FileMetaImport

  • IntelligentTag :

    IntelligentTag

  • FileMetaExport :

    FileMetaExport

  • FileMetaBuild :

    FileMetaBuild

SemanticIndex

JobMode

string

任务类型。

枚举值:

  • Full :

    Full

Full

Description

string

描述。

This is a job description.

JobSpec

string

任务明细。

{\"modelId\":\"xxx\"}

CreateDatasetJob 中的 JobSpec 参数说明:

语义索引任务

示例:

  "modelId": "xxx",
  "modelVersion": "1.0.0",
  "contentList": ["file"],
  "embeddingConnectionId": "conn-xxx",
  "embeddingModel": "default",
  "databaseConnectionId": "conn-xxx",
  "databaseTableName": "table_xxx",
  "vectorIndexConfig":"{\"shards\":1,\"similarity\":\"cosine\",\"indexType\":\"hnsw\",\"indexOptions\":{\"m\":16,\"efConstruction\":200}}",
  "concurrency": 2
}

字段说明:

字段名称类型示例必选参数说明
modelIdStringmodel-xxx官方模型 ID。
modelVersionString1.0.0官方模型版本。
embeddingConnectionIdStringconn-xxxeas 模型服务连接 ID。
embeddingModelStringdefaulteas 模型服务对应的模型名称。
databaseConnectionIdStringconn-xxx向量库服务连接 ID。
databaseTableNameStringtable_xxx向量库表名。
concurrencyInteger2任务并行数
contentListArray索引内容列表。
+-Stringfile索引内容。一期只支持 file(文件)。

智能打标任务

示例:

{
  "intelligentTagConnectionId": "conn-keltvufiud3quopq11",
  "promptId": "pmt-gh6qaj1kvkf6yk7qx2",
  "modelId":"qwen-vl-max"
}

字段说明:

字段名称类型示例必选参数说明
modeIdStringqwen-vl-max模型名称
intelligentTagConnectionIdStringconn-keltvufiud3quopq11打标连接管理
promptIdStringpmt-gh6qaj1kvkf6yk7qx2提示词 id

元数据导出任务

示例:

{
  "query":{
    "QueryType": "TAG",
    "QueryText": "",
    "TopK": 100,
    "ScoreThreshold":0.6,
  },
  "filteredAttributes":"FileName,Uri",
  "exportDirUri": "oss://bucket/path/" 
}

字段说明:

字段名称类型示例必选参数说明
queryJSON导出查询条件,字段与 ListDatasetMetas 接口保持一致。见:QueryParms
filteredAttributesString逗号分隔当指定时,导出结果将只包含指定过滤的属性字段。字段列表:
* Uri (必有)
* DatasetFileMetaId
* FileName
* DataSize
* FileType
* ContentType
* Comment
* MetaAttributes
* FileFingerPrint
* FileCreateTime
* FileUpdateTime
* Tags.user: 用户自定义标签
* Tags.user-delete-ai-tags: 用户删除的算法标签
* Tags.ai:算法标签(所有打标任务聚合后的)
* Tags.all: 算法标签+用户自定义标签(已去除用户删除的算法标签)











































exportDirUriStringoss://bucket/path/
或者
pvfs://cata_log/DB/lanceTable




导出内容的 OSS 存储路径,需为目录地址。
会在该目录下创建文件夹:{datasetId}-{datasetversion}-{time:yyyy-MM-dd-HH-mm-ss},下存放 yaml 和 jsonl 文件。详细见:

QueryParams:

字段名称类型示例必选参数说明
QueryTypeStringMIXMIX, VECTOR, TAG
QueryTextString“倒地的水马”待搜索文本内容
QueryImageStringoss://bucket.cn-hangzhou.aliyuncs.com/image.jpg以图搜图时,该参数传入图片的信息。
支持传入图片的可公网访问的 oss url 格式

QueryTagsIncludeAllString蓝色锥形桶,车道线表示“同时包含以下标签”。
用户可以选择多个标签,查询结果必须同时满足这些标签。
如果为空,则不应用此条件。
当 QueryType=TAG 或 MIX 时有效。







QueryTagsIncludeAnyString蓝天表示“包含以下任意标签”。
用户可以选择多个标签,查询结果只需满足其中一个即可。
如果为空,则不应用此条件。
当 QueryType=TAG 或 MIX 时有效。







QueryTagsExcludeString阴天表示“排除以下标签”。
用户可以选择多个标签,查询结果中不能包含这些标签。
如果为空,则不应用此条件。
当 QueryType=TAG 或 MIX 时有效。







QueryFileNameStringshuima文件名模糊搜索,基于 2-gram 模糊匹配
QueryFileDirStringoss://cars/20250221/文件目录模糊搜索,基于 2-gram 模糊匹配
QueryFileTypeIncludeAnyStringimage,video表示“包含以下任意文件类型”。
用户可以选择多个文件类型,查询结果只需满足其中一个即可。
如果为空,则不应用此条件。




QueryContentTypeIncludeAnyStringimage/jpeg,application/pdf表示“包含以下任意 MIME Type 类型”。
用户可以选择多个文件类型,查询结果只需满足其中一个即可。
如果为空,则不应用此条件




StartFileUpdateTimeString2021-01-12T14:36:01.000Z查询时间段范围内的文件元数据。起始文件更新时间。
iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。

EndFileUpdateTimeString2021-01-12T14:36:01.000Z查询时间段范围内的文件元数据。结束文件更新时间。
iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。

StartTagUpdateTimeString2021-01-12T14:36:01.000Z查询时间段范围内的文件元数据。起始最后标签更新时间。
iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。
当 QueryType=TAG 或 MIX 时有效。




EndTagUpdateTimeString2021-01-12T14:36:01.000Z查询时间段范围内的文件元数据。结束最后标签更新时间。
iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。
当 QueryType=TAG 或 MIX 时有效。




TopKInteger100导出的最大数量,默认无限制
ScoreThresholdFloat0.6相似度分数过滤。只返回大于 ScoreThreshold 的结果。
当 QueryType=VECTOR 或 MIX 时有效。

DatasetFileMetaIdsString文件元数据 ID 列表,最大个数为 20。

构建更新元数据任务

示例:

{}

智能打标撤回任务

示例:

{
  "intelligentTagJobId": "dsjob-gh6qaj1kvkf6yk7qx2"
}

字段说明:

字段名称类型示例必选参数说明
intelligentTagJobIdStringdsjob-gh6qaj1kvkf6yk7qx2待撤回的智能打标任务 ID

元数据导入任务

基于查询条件示例:

{
    "srcDatasetId": "d-1234",
    "srcDatasetVersion": "v1",
    "srcWorkspaceId": "12729",
    "query":
    {
        "QueryType": "TAG",
        "QueryText": "",
        "TopK": 100,
        "ScoreThreshold": 0.6
    }
}

基于 pai_dataset_filemeta_manifest 文件示例:

{
    "manifestUri":"oss://bucket/export_path/d-mpdxv0lm9sndij7gpb-v1-2025-06-18-12-23-30/pai_dataset_filemeta_manifest.yaml"
}

字段说明:

字段名称类型示例必选参数说明
srcDatasetIdStringdsjob-gh6qaj1kvkf6yk7qx2是(基于查询)导入来源数据集 ID
srcDatasetVersionStringv1是(基于查询)导入来源数据集版本
srcWorkspaceIdString12729是(基于查询)导入来源数据集工作空间
queryJSON否(基于查询)在源数据集版本上应用的查询条件。
见:QueryParams

manifestUriStringoss://bucket/export_path/d-mpdxv0lm9sndij7gpb-v1-2025-06-18-12-23-30/pai_dataset_filemeta_manifest.yaml是(基于文件)导入来源的 manifest 文件地址。
仅支持不带 endpoint 的 oss uri

filteredAttributesStringFileName,Uri,FileFingerPrint,DataSize,DataSize,FileUpdateTime,Tags.ai默认导入所有属性字段。
当指定时,导入内容将只包含指定过滤的属性字段。
字段列表:
* FileName (必须)
* Uri (必须)
* FileFingerPrint (必须)
* DataSize (必须)
* FileType (必须)
* ContentType (必须)
* Comment
* MetaAttributes
* FileCreateTime
* FileUpdateTime
* Tags.user: 用户自定义标签
* Tags.user-delete-ai-tags: 用户删除的算法标签
* Tags.ai:算法标签(所有打标任务聚合后的)











































importModeStringappend导入模式:
append(默认): 追加模式。同 uri 的文件会使用待导入的内容进行覆盖。
replace: 替换模式。该数据集版本下原有的文件元数据将会被删除。




返回参数

名称

类型

描述

示例值

object

返回结构体。

RequestId

string

请求 ID。

99341606-****-0757724D97EE

DatasetJobId

string

数据集任务 ID

dsjob-9jx1******uj9e

示例

正常返回示例

JSON格式

{
  "RequestId": "99341606-****-0757724D97EE",
  "DatasetJobId": "dsjob-9jx1******uj9e"
}

错误码

访问错误中心查看更多错误码。

变更历史

更多信息,参考变更详情