GetUploadDocumentJob - 获取上传文档任务

通过JobId获取异步上传文档的任务的进度和结果。

接口说明

此接口为 UploadDocumentAsync 的相关接口。可通过 UploadDocumentAsync 创建一个上传任务,并得到一个 JobId,然后通过此接口查看 Job 的执行信息。

说明 使用建议
  • 按照文档复杂度和切分后的向量条数评估超时,一般不超过 2 小时。
  • 调试

    您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

    授权信息

    下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

    • 操作:是指具体的权限点。
    • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
    • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
      • 对于必选的资源类型,用背景高亮的方式表示。
      • 对于不支持资源级授权的操作,用全部资源表示。
    • 条件关键字:是指云产品自身定义的条件关键字。
    • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
    操作访问级别资源类型条件关键字关联操作
    gpdb:GetUploadDocumentJobcreate
    • Document
      acs:gpdb:{#regionId}:{#accountId}:document/{#DBInstanceId}

    请求参数

    名称类型必填描述示例值
    DBInstanceIdstring

    开启了向量引擎优化的实例 ID。

    说明 您可以调用 DescribeDBInstances 接口查看目标地域下所有的 AnalyticDB PostgreSQL 实例的详情,包括实例 ID。
    gp-xxxxxxxxx
    Namespacestring

    命名空间,用于租户隔离,默认为 public。

    说明 可以通过 CreateNamespace 创建,通过 ListNamespaces 接口查看列表。
    mynamespace
    Collectionstring

    文档库名称。

    说明 CreateDocumentCollection 接口创建。您可以调用 ListDocumentCollections 接口查看已经创建的文档库。
    document
    RegionIdstring

    实例所在地域 ID。

    cn-hangzhou
    NamespacePasswordstring

    命名空间对应的密码。

    说明 本值为 CreateNamespace 接口指定。
    testpassword
    JobIdstring

    上传文档的任务 ID,由UploadDocumentAsync接口获得。

    bf8f7bc4-9276-44f7-9c22-1d06edc8dfd1

    返回参数

    名称类型描述示例值
    object
    RequestIdstring

    请求 ID。

    ABB39CC3-4488-4857-905D-2E4A051D0521
    Messagestring

    接口返回详细信息。

    success
    Statusstring

    此接口状态,取值说明:

    • success:成功。
    • fail:失败。
    success
    Jobobject

    上传文档的任务的详细信息。

    Idstring

    Job ID。

    231460f8-75dc-405e-a669-0c5204887e91
    Completedboolean

    操作是否完成。

    false
    CreateTimestring

    任务创建时间。

    2024-01-08 16:52:04.864664
    UpdateTimestring

    任务更新时间。

    2024-01-08 16:53:04.864664
    Statusstring

    任务状态。取值说明:

    • Success:成功。
    • Failed:失败,失败原因可查看 Error 字段。
    • Cancelling:正在取消中。
    • Cancelled:已取消。
    • Start:开始。
    • Running:执行中。
    • Pending:等待中。
    Running
    Errorstring

    当前操作异常或者失败时的错误信息。

    Failed to connect database.
    Progressinteger

    上传进度,此数值为进度百分比,值为 100 时表示完成。

    20
    ErrorCodestring

    错误码。

    InternalError
    ChunkResultobject

    切分结果。

    ChunkFileUrlstring

    切分后的文件链接,有效期为 2h。文件格式为 JSONL,每一行的格式为{"page_content":"*****", "metadata": {"**":"***","**":"***"}

    http://xxx/test.jsonl
    PlainChunkFileUrlstring

    切分后的不带 metadata 的文件链接,有效期为 2h。文件格式为纯文本,每一行为一条切分块。此文件可方便的用于 embedding。

    http://xxx/test.txt
    Usageobject

    文档理解或 Embedding 消耗的 token 或条数。

    EmbeddingTokensinteger

    向量化时使用的 token 数。

    说明 token 是指将输入的文本分割成的最小单位;token 可以是一个单词、一个词组、一个标点符号、一个字符等。
    475
    EmbeddingEntriesinteger

    向量化时使用的条目数。

    10

    示例

    正常返回示例

    JSON格式

    {
      "RequestId": "ABB39CC3-4488-4857-905D-2E4A051D0521",
      "Message": "success",
      "Status": "success",
      "Job": {
        "Id": "231460f8-75dc-405e-a669-0c5204887e91",
        "Completed": false,
        "CreateTime": "2024-01-08 16:52:04.864664",
        "UpdateTime": "2024-01-08 16:53:04.864664",
        "Status": "Running",
        "Error": "Failed to connect database.",
        "Progress": 20,
        "ErrorCode": "InternalError"
      },
      "ChunkResult": {
        "ChunkFileUrl": "http://xxx/test.jsonl",
        "PlainChunkFileUrl": "http://xxx/test.txt"
      },
      "Usage": {
        "EmbeddingTokens": 475,
        "EmbeddingEntries": 10
      }
    }

    错误码

    访问错误中心查看更多错误码。

    变更历史

    变更时间变更内容概要操作
    2024-10-15OpenAPI 返回结构发生变更查看变更详情
    2024-01-18OpenAPI 返回结构发生变更查看变更详情