创建数据集任务。
调试
您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息
操作 |
访问级别 |
资源类型 |
条件关键字 |
关联操作 |
paidataset:CreateDatasetJob |
create |
*全部资源
|
无 | 无 |
请求语法
POST /api/v1/datasets/{DatasetId}/datasetjobs HTTP/1.1
请求参数
名称 |
类型 |
必填 |
描述 |
示例值 |
DatasetId |
string |
是 |
数据集 ID。如何获取数据集 ID,详情请参见 ListDatasets 。 |
d-rbvg5wz****c9ks92 |
body |
object |
否 |
请求体。 |
|
DatasetVersion |
string |
否 |
数据集版本名称。 |
v1 |
WorkspaceId |
string |
是 |
工作空间 ID。如何获取工作空间 ID,请参见 ListWorkspaces 。 |
478** |
JobAction |
string |
是 |
任务操作。
枚举值:
|
SemanticIndex |
JobMode |
string |
否 |
任务类型。 枚举值:
|
Full |
Description |
string |
否 |
描述。 |
This is a job description. |
JobSpec |
string |
是 |
任务明细。 |
{\"modelId\":\"xxx\"} |
CreateDatasetJob 中的 JobSpec 参数说明:
语义索引任务
示例:
"modelId": "xxx",
"modelVersion": "1.0.0",
"contentList": ["file"],
"embeddingConnectionId": "conn-xxx",
"embeddingModel": "default",
"databaseConnectionId": "conn-xxx",
"databaseTableName": "table_xxx",
"vectorIndexConfig":"{\"shards\":1,\"similarity\":\"cosine\",\"indexType\":\"hnsw\",\"indexOptions\":{\"m\":16,\"efConstruction\":200}}",
"concurrency": 2
}
字段说明:
字段名称 | 类型 | 示例 | 必选 | 参数说明 |
modelId | String | model-xxx | 否 | 官方模型 ID。 |
modelVersion | String | 1.0.0 | 否 | 官方模型版本。 |
embeddingConnectionId | String | conn-xxx | 否 | eas 模型服务连接 ID。 |
embeddingModel | String | default | 否 | eas 模型服务对应的模型名称。 |
databaseConnectionId | String | conn-xxx | 否 | 向量库服务连接 ID。 |
databaseTableName | String | table_xxx | 否 | 向量库表名。 |
concurrency | Integer | 2 | 否 | 任务并行数 |
contentList | Array | 是 | 索引内容列表。 | |
+- | String | file | 索引内容。一期只支持 file(文件)。 |
智能打标任务
示例:
{
"intelligentTagConnectionId": "conn-keltvufiud3quopq11",
"promptId": "pmt-gh6qaj1kvkf6yk7qx2",
"modelId":"qwen-vl-max"
}
字段说明:
字段名称 | 类型 | 示例 | 必选 | 参数说明 |
modeId | String | qwen-vl-max | 是 | 模型名称 |
intelligentTagConnectionId | String | conn-keltvufiud3quopq11 | 是 | 打标连接管理 |
promptId | String | pmt-gh6qaj1kvkf6yk7qx2 | 是 | 提示词 id |
元数据导出任务
示例:
{
"query":{
"QueryType": "TAG",
"QueryText": "",
"TopK": 100,
"ScoreThreshold":0.6,
},
"filteredAttributes":"FileName,Uri",
"exportDirUri": "oss://bucket/path/"
}
字段说明:
字段名称 | 类型 | 示例 | 必选 | 参数说明 |
query | JSON | 否 | 导出查询条件,字段与 ListDatasetMetas 接口保持一致。见:QueryParms | |
filteredAttributes | String | 逗号分隔 | 否 | 当指定时,导出结果将只包含指定过滤的属性字段。字段列表: * Uri (必有) * DatasetFileMetaId * FileName * DataSize * FileType * ContentType * Comment * MetaAttributes * FileFingerPrint * FileCreateTime * FileUpdateTime * Tags.user: 用户自定义标签 * Tags.user-delete-ai-tags: 用户删除的算法标签 * Tags.ai:算法标签(所有打标任务聚合后的) * Tags.all: 算法标签+用户自定义标签(已去除用户删除的算法标签) |
exportDirUri | String | oss://bucket/path/ 或者 pvfs://cata_log/DB/lanceTable | 是 | 导出内容的 OSS 存储路径,需为目录地址。 会在该目录下创建文件夹: {datasetId}-{datasetversion}-{time:yyyy-MM-dd-HH-mm-ss} ,下存放 yaml 和 jsonl 文件。详细见: |
QueryParams:
字段名称 | 类型 | 示例 | 必选 | 参数说明 |
QueryType | String | MIX | 否 | MIX, VECTOR, TAG |
QueryText | String | “倒地的水马” | 否 | 待搜索文本内容 |
QueryImage | String | oss://bucket.cn-hangzhou.aliyuncs.com/image.jpg | 否 | 以图搜图时,该参数传入图片的信息。 支持传入图片的可公网访问的 oss url 格式 |
QueryTagsIncludeAll | String | 蓝色锥形桶,车道线 | 否 | 表示“同时包含以下标签”。 用户可以选择多个标签,查询结果必须同时满足这些标签。 如果为空,则不应用此条件。 当 QueryType=TAG 或 MIX 时有效。 |
QueryTagsIncludeAny | String | 蓝天 | 否 | 表示“包含以下任意标签”。 用户可以选择多个标签,查询结果只需满足其中一个即可。 如果为空,则不应用此条件。 当 QueryType=TAG 或 MIX 时有效。 |
QueryTagsExclude | String | 阴天 | 否 | 表示“排除以下标签”。 用户可以选择多个标签,查询结果中不能包含这些标签。 如果为空,则不应用此条件。 当 QueryType=TAG 或 MIX 时有效。 |
QueryFileName | String | shuima | 否 | 文件名模糊搜索,基于 2-gram 模糊匹配 |
QueryFileDir | String | oss://cars/20250221/ | 否 | 文件目录模糊搜索,基于 2-gram 模糊匹配 |
QueryFileTypeIncludeAny | String | image,video | 否 | 表示“包含以下任意文件类型”。 用户可以选择多个文件类型,查询结果只需满足其中一个即可。 如果为空,则不应用此条件。 |
QueryContentTypeIncludeAny | String | image/jpeg,application/pdf | 否 | 表示“包含以下任意 MIME Type 类型”。 用户可以选择多个文件类型,查询结果只需满足其中一个即可。 如果为空,则不应用此条件 |
StartFileUpdateTime | String | 2021-01-12T14:36:01.000Z | 否 | 查询时间段范围内的文件元数据。起始文件更新时间。 iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。 |
EndFileUpdateTime | String | 2021-01-12T14:36:01.000Z | 否 | 查询时间段范围内的文件元数据。结束文件更新时间。 iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。 |
StartTagUpdateTime | String | 2021-01-12T14:36:01.000Z | 否 | 查询时间段范围内的文件元数据。起始最后标签更新时间。 iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。 当 QueryType=TAG 或 MIX 时有效。 |
EndTagUpdateTime | String | 2021-01-12T14:36:01.000Z | 否 | 查询时间段范围内的文件元数据。结束最后标签更新时间。 iso8601 格式 UTC 时间戳,2021-01-12T14:36:01.000Z。 当 QueryType=TAG 或 MIX 时有效。 |
TopK | Integer | 100 | 否 | 导出的最大数量,默认无限制 |
ScoreThreshold | Float | 0.6 | 相似度分数过滤。只返回大于 ScoreThreshold 的结果。 当 QueryType=VECTOR 或 MIX 时有效。 | |
DatasetFileMetaIds | String | 否 | 文件元数据 ID 列表,最大个数为 20。 |
构建更新元数据任务
示例:
{}
智能打标撤回任务
示例:
{
"intelligentTagJobId": "dsjob-gh6qaj1kvkf6yk7qx2"
}
字段说明:
字段名称 | 类型 | 示例 | 必选 | 参数说明 |
intelligentTagJobId | String | dsjob-gh6qaj1kvkf6yk7qx2 | 是 | 待撤回的智能打标任务 ID |
元数据导入任务
基于查询条件示例:
{
"srcDatasetId": "d-1234",
"srcDatasetVersion": "v1",
"srcWorkspaceId": "12729",
"query":
{
"QueryType": "TAG",
"QueryText": "",
"TopK": 100,
"ScoreThreshold": 0.6
}
}
基于 pai_dataset_filemeta_manifest 文件示例:
{
"manifestUri":"oss://bucket/export_path/d-mpdxv0lm9sndij7gpb-v1-2025-06-18-12-23-30/pai_dataset_filemeta_manifest.yaml"
}
字段说明:
字段名称 | 类型 | 示例 | 必选 | 参数说明 |
srcDatasetId | String | dsjob-gh6qaj1kvkf6yk7qx2 | 是(基于查询) | 导入来源数据集 ID |
srcDatasetVersion | String | v1 | 是(基于查询) | 导入来源数据集版本 |
srcWorkspaceId | String | 12729 | 是(基于查询) | 导入来源数据集工作空间 |
query | JSON | 否(基于查询) | 在源数据集版本上应用的查询条件。 见: QueryParams | |
manifestUri | String | oss://bucket/export_path/d-mpdxv0lm9sndij7gpb-v1-2025-06-18-12-23-30/pai_dataset_filemeta_manifest.yaml | 是(基于文件) | 导入来源的 manifest 文件地址。 仅支持不带 endpoint 的 oss uri |
filteredAttributes | String | FileName,Uri,FileFingerPrint,DataSize,DataSize,FileUpdateTime,Tags.ai | 否 | 默认导入所有属性字段。 当指定时,导入内容将只包含指定过滤的属性字段。 字段列表: * FileName (必须) * Uri (必须) * FileFingerPrint (必须) * DataSize (必须) * FileType (必须) * ContentType (必须) * Comment * MetaAttributes * FileCreateTime * FileUpdateTime * Tags.user: 用户自定义标签 * Tags.user-delete-ai-tags: 用户删除的算法标签 * Tags.ai:算法标签(所有打标任务聚合后的) |
importMode | String | append | 否 | 导入模式: append(默认): 追加模式。同 uri 的文件会使用待导入的内容进行覆盖。 replace: 替换模式。该数据集版本下原有的文件元数据将会被删除。 |
返回参数
名称 |
类型 |
描述 |
示例值 |
object |
返回结构体。 |
||
RequestId |
string |
请求 ID。 |
99341606-****-0757724D97EE |
DatasetJobId |
string |
数据集任务 ID |
dsjob-9jx1******uj9e |
示例
正常返回示例
JSON
格式
{
"RequestId": "99341606-****-0757724D97EE",
"DatasetJobId": "dsjob-9jx1******uj9e"
}
错误码
访问错误中心查看更多错误码。
变更历史
更多信息,参考变更详情。