知识库计费说明-大模型服务平台百炼(Model Studio)-阿里云帮助中心

阿里云百炼知识库服务自 2026 年 1 月 4 日起正式开始计费。本文详细说明了知识库的计费规则，包括费用构成、计算方式和成本优化策略。

重要

2026 年 1 月 4 日前创建但未开通服务的知识库数据将保留至 2026 年 6 月 30 日。逾期未开通服务，数据将被永久删除。请及时开通知识库服务。

1. 计费方式

知识库提供后付费（按量付费）和预付费资源包两种计费方式。开通知识库服务后，默认采用后付费计费方式。资源包可前往控制台RAG标准版资源包或RAG旗舰版资源包开通。

开通服务：免费。
计费起点：从成功创建知识库开始。
扣费逻辑
- 扣费顺序：免费额度 > 资源包 > 按量付费。多个知识库将会按数量扣减免费额度或资源包。
- 超出部分处理：当您的免费额度和资源包消耗完成后自动转入后付费进行计费。
扣费模式
- 免费额度：自知识库开通时，开始计算免费额度（标准版知识库）的有效期。
- 资源包：资源包按业务量级划分为不同规格，可一次性付费购买，不同规格及价格可查看资源包。
- 后付费：系统会根据其规格，按运行时长累计从阿里云账户自动扣费，按小时出账。请确保账户余额充足（可通过费用与成本页面进行充值）。
停止计费：如果不再需要某个知识库，请及时删除以停止计费。
重要
删除操作会永久清除知识库内的数据且无法恢复，请谨慎操作。

2. 费用构成

知识库的总费用由两部分构成：规格费用和模型调用费用。

2.1 规格费用

规格费用指知识库的运行时长费用。阿里云百炼提供两种知识库规格：标准版和旗舰版。

若选择使用自购的 ADB-PG 作为向量存储，则需额外支付其费用。

标准版：适用于个人/小规模、PoC环境。
旗舰版：适用于高并发、生产级环境。

规格	最高并发（检索知识库）	存储空间	价格
标准版	1 QPS（固定值，不支持调整）	平台存储 ≤ 100 GB	0.03 元/知识库/小时
旗舰版	50-10,000 QPS（可调，对应 1-200 RCU）	平台存储 ≤ 9,999 GB （如需更大存储空间，可在创建知识库时选择并配置自购的 ADB-PG 实例。参见操作指南-创建知识库）	0.2 元/RCU/小时

说明

RCU：RCU（Retrieval Compute Unit）是知识库检索并发能力度量单位。1 RCU ≈ 支撑在线检索最高 50 QPS。RCU 越大，可支撑并发数越高。
如何估算所需 RCU：所需 RCU 数量 = 向上取整（检索峰值 QPS 需求 ÷ 50）。例如，80 QPS 的峰值需求至少需要 2 RCU。
最高并发：指知识库本身的核心检索性能（不含依赖链路，例如调用排序模型）。
检索知识库（旗舰版）时，如遇极端情况下模型依赖链路限流（如Embedding、Rerank模型等），我们将以最快速度帮您扩容相关服务，但中途可能存在少量检索请求降级，效果会有短暂的下降。
存储空间费用：以上规格对应价格已含平台存储的费用；若您选择使用自购的 ADB-PG，则需额外支付其费用，价格以ADB-PG产品定价页为准。
变配：按变配发生时间分段计费。变配操作本身不收费。同一知识库 1 个自然日内最多允许变配 1 次。

免费额度说明

阿里云百炼为所有用户提供一次性 720 小时的知识库免费额度，免费额度耗尽后将按量付费。

重要

老用户的免费额度有效期统一截至 2026 年 2 月 3 日 23:59，到期后将自动按量付费。

新用户的免费额度自开通之日起 30 天内有效。过期后剩余额度将作废，无法继续使用。

老用户指在 2026 年 1 月 4 日知识库正式计费前已开通服务的用户，新用户指在该日期（含当天）之后首次开通服务的用户。

可在知识库页面右上角点击查看账单，以查看剩余免费时长及有效期。

使用规则

适用范围： 仅用于抵扣标准版知识库的规格费用，不适用于旗舰版。
扣除方式： 按实际运行时长累计扣除。多个知识库将会按数量扣减免费额度。
例如，同时运行 4 个标准版知识库，每小时扣除 4 小时额度。
不包含项目： 模型调用费用不在免费额度范围内，遵循模型本身的计费策略。

示例

单个标准版知识库运行：720小时 ÷ 1个 = 可免费运行720小时
2个标准版知识库同时运行：720小时 ÷ 2个 = 可免费运行360小时

资源包

资源包购买后一年内有效，一年内若资源包时长未使用完，则过期作废。

RAG标准版资源包规格及价格

计量单位	*个小时数**	适用场景	资源包价格/元
1个/月	720	1知识库1月	20
1个/季	2160	1知识库1季	59
1个/年	8760	1知识库1年	239
10个/年	87600	10知识库1年	2,099
50个/年	438000	50知识库1年	9,999
100个/年	876000	100知识库1年	18,999

RAG旗舰版资源包规格及价格

计量单位	*RCU小时数**	适用场景	资源包价格/元
1RCU/月	720	1知识库1月	139
1RCU/季	2160	1知识库1季	399
1RCU/年	8760	1知识库1年	1,599
10RCU/年	87600	10知识库1年	14,999
30RCU/年	262800	30知识库1年	41,999
50RCU/年	438000	50知识库1年	65,999

使用说明

生效时间：资源包购买后自动生效。
有效期：根据资源包购买套餐而定，超出有效期后，资源包中剩余的时长自动作废。
抵扣逻辑
- 抵扣顺序：免费额度 > 资源包 > 按量付费。
- 多个同类型的资源包：优先抵扣先到期的资源包。若到期时间相同，则优先抵扣先购买的资源包。
- 多个知识库将会按数量扣减免费额度或资源包。
- 超出部分处理：如果同类资源包全部到期或额度全部抵扣完后，若仍有超出部分，自动转为按量付费。

余量监控与预警
- 查看余量：点击资源包查看剩余量情况，点击统计查看使用信息。具体请参见资源包介绍与选购。
- 设置预警：建议设置资源包余量预警。当资源包使用量低于预设阈值时，系统将通过短信、邮件及站内信自动触发通知。
退订说明
- 根据退订规则，预付费商品未发生使用的部分，可按未使用额度费用申请退款；已使用的部分则无法退款。退订后，知识库转为按量付费，删除知识库可停止扣费。

2.2 模型调用费用

在创建、更新、检索知识库以及使用知识问答服务时，会调用以下模型，这些调用会产生独立于规格费用之外的模型调用费用：

模型类别	模型名称	用途
向量模型	text-embedding-v4等	文档类知识库的文本向量化
向量模型	qwen3-vl-embedding	图片问答类、音视频搜索类知识库的多模态向量化
排序模型	qwen3-rerank	文档类知识库检索结果的二次排序（可选）
排序模型	qwen3-vl-rerank	图片问答类、音视频搜索类知识库检索结果的二次排序（可选）
路由模型	qwen-plus	开启知识库路由时，系统调用 qwen-plus 判断查询应路由至哪些知识库
问答模型	qwen3.7-plus 等	知识问答服务中生成回答的大语言模型，由用户在应用中自行选择

重要

模型调用费用是独立计费项，根据实际使用的输入 Token 量计算。其价格和免费额度策略遵循模型广场中对应模型的调用计费标准，不包含在知识库的规格费用中。

计费公式：模型费用 = (输入 Token 总数 / 1000) × 模型单价（元/千 Token）

多个知识库计费规则：阿里云百炼应用挂载了多个知识库时，会在多个知识库内执行检索，Token 消耗量（Query 向量化和 Rerank 排序）按知识库数量倍数增加（N 个知识库则消耗量 × N）。

2.2.1 知识管理（创建与更新知识库）

调用场景：上传新文件或增量更新时，调用向量模型对文本内容进行向量化处理。
计费说明：按新增内容的 Token 数量计费。删除文件不产生模型调用费用。
调用的模型：
- 文档搜索类知识库：text-embedding-v4 或 text-embedding-v3（文本向量模型）。
- 图片问答类、音视频搜索类知识库：qwen3-vl-embedding（多模态向量模型）。

2.2.2 知识检索

调用场景
1. 向量化：调用向量模型，对用户的查询（Query）进行向量化。
2. 知识库路由（可选）：若应用关联了多个知识库并开启了知识库路由功能，系统会调用 qwen-plus 判断用户查询应路由至哪些知识库，该调用按 qwen-plus 的 Token 用量计费。
3. 排序（可选）：调用排序模型对初步检索到的结果进行重新排序，以提升最终答案的精准度。文档搜索类知识库使用 qwen3-rerank，图片问答类和音视频搜索类知识库使用 qwen3-vl-rerank。
计费说明
- Query 向量化费用：按用户输入内容的 Token 数计费。
- Rerank 排序费用（可配置关闭）：这是检索费用的主要部分。费用取决于初步召回的切片总量。
检索流程与计费关系详解
1. 初步召回
  系统根据以下参数从知识库中召回文本切片：
  - 初步向量检索TopK：控制基于语义相似性召回的相关切片数量（默认 50）
  - 初步关键词检索TopK：控制基于文本精确匹配召回的相关切片数量（默认 50）
2. 重排序
  1. 所有初步召回的切片，都会被送入 Rerank 模型进行排序。
  2. 费用 = 初步召回总切片数 × 平均切片Token数 × 模型单价（参见模型调用计费）
    重要
    排序模型费用取决于初步召回的总切片数，而非最终返回召回的切片数量。
3. 最终召回
  Rerank 模型排序后，系统会根据最终召回最大数量参数（例如 5）返回相应数量的切片。

2.2.3 知识问答

通过百炼应用（智能体应用、工作流应用）使用知识库进行问答时，除了检索阶段的模型费用外，还会产生以下模型调用费用：

问答生成模型：系统根据您在应用中选择的问答模型（如 qwen-plus 等）生成回答，按该模型的 Token 用量计费。具体价格以模型计费标准为准。
预文件解析（可选）：当用户在对话中上传文件并开启预文件解析功能时，系统会调用 qwen3-rerank 对文件内容进行排序处理，按排序模型的 Token 用量计费。
知识库路由（可选）：若应用关联了多个知识库并开启了路由功能，系统会调用 qwen-plus 进行路由判断（详见 2.2.2 知识检索）。

重要

知识问答服务的完整费用 = 规格费用（知识库运行时长）+ 检索阶段的模型费用（向量化 + 排序 + 路由）+ 问答阶段的模型费用（问答生成 + 预文件解析）。各模型费用按实际 Token 消耗量独立计算，请关注模型计费标准了解各模型的单价。

2.2.4 费用优化建议

有以下两种方式：

关闭排序

调整初步召回参数

如果您的应用场景对搜索精度要求不高，可关闭排序功能以消除排序模型费用。

相关文档：重排（Rerank）配置。

影响：此操作会降低搜索结果的相关性排序。
操作：
- 旧版智能体、工作流应用：
  点击应用内的知识库右侧调试按钮，进入页面，关闭重排策略开关。
- 新版智能体应用：
  在知识库卡片上点击命中测试，选择不使用模型，点击保存即可。

通过降低初步向量检索TopK和初步关键词检索TopK的数值，可减少送入排序模型的 Token 量，从而显著降低成本。

影响：此操作可能影响最终检索效果，可自行调试，在成本与性能间取得平衡。
操作：在知识库的编辑或命中测试页面即可调整，点击保存即可。
例如，将初步向量检索 TopK和初步关键词检索 TopK的值均调整为 50（取值范围 10–100），然后点击保存。

说明

点击知识库卡片上的命中测试，进入配置调试页面进行测试，会产生相应的模型（向量模型、排序模型）调用计费。

2.2.5 节省计划抵扣说明

知识库使用的向量模型（如 text-embedding-v4）和排序模型（如 qwen3-rerank）属于百炼平台 A 类模型，其调用费用支持通过以下节省计划抵扣：

AI 通用型节省计划（推荐）：覆盖 A 类全部模型（含文本向量、多模态向量、排序模型），按月承诺消费享阶梯折扣。详情请参见节省计划与资源包。
向量及排序模型节省计划：专门针对向量和排序模型的节省计划，一次性购买固定金额。详情请参见节省计划与资源包 > 向量及排序模型节省计划。

说明

节省计划仅可抵扣模型调用费用，不可抵扣知识库的规格费用（运行时长费用）。规格费用的优化请参见资源包。

3. 计费示例

3.1 连续运行 1 天

规格	配置	数量	单日规格费用
标准版	使用平台存储	1	24 小时 × 0.03 元/小时 = 0.72 元
旗舰版	使用平台存储，1 RCU	1	24 小时 × 1 RCU × 0.2 元/RCU/小时 = 4.80 元

3.2 创建、更新与检索知识库

以下示例基于文档搜索类知识库，使用 text-embedding-v4（向量模型）与 qwen3-rerank（排序模型），价格均为 0.0005 元/千 Token。图片问答类和音视频搜索类知识库使用的多模态模型（qwen3-vl-embedding、qwen3-vl-rerank）价格请参见对应模型详情页。

计费逻辑：费用 = Token 消耗量（以“千 Token”为单位） × 模型单价

创建知识库
- 操作：上传含 50,000 Token 的文件进行向量化。
- 费用：50 × 0.0005 元/千 Token = 0.025 元
更新知识库
- 操作：新增含 20,000 Token 的文件。
- 费用：20 × 0.0005 元/千 Token = 0.01 元
检索知识库（单个）
- 操作：输入 100 Token 的查询（Query），召回 150 个相关切片（平均 500 Token/切片）进行排序。
- 费用：
  - Query 向量化：0.1 × 0.0005 元/千 Token = 0.00005 元
  - 排序 Token 数： 150 个切片 × 500 Token/切片 = 75,000 Token
  - 排序费用（如有）：75 × 0.0005 元/千 Token = 0.0375 元
  - 合计：0.00005 元（Query 向量化） + 0.0375 元（排序）= 0.03755 元

检索知识库（多个）
- 操作：阿里云百炼智能体应用关联 4 个知识库，同一 Query 在每个知识库中默认执行一次检索（无法更改）。
- 费用：0.03755 元/次 × 4 = 0.1502 元

3.3 配置变更（分段计费）

场景：14:40–15:40 期间，于 15:10 从标准版升配至旗舰版（2 RCU）。标准版和旗舰版运行时长均为 30 分钟（即 0.50 小时，保留2位小数）。
规格费用（14:40-15:40期间）：
- 标准版：0.50 小时 × 0.03 元/小时 = 0.015 元
- 旗舰版：0.50 小时 × 2 RCU × 0.2 元/RCU/小时 = 0.20 元
- 合计：0.215 元

3.4 运行不足 1 小时

场景：1 个标准版知识库，于 14:12 创建，并于 14:21 删除，总运行时长为 9 分钟（0.15 小时，保留2位小数）。
规格费用（14:12-14:21期间）：0.15 小时 × 0.03 元/小时 = 0.0045 元

4. 费用与账单

4.1 查看账单与用量

4.1.1 查询知识库的规格费用

在账单详情页面中导出，可在账单（按小时聚合）中查看指定知识库在对应时段的规格费用（目录总价列）。

图中实例 ID 即知识库ID。

筛选产品名称为大模型服务平台百炼，商品名称为百炼知识库（RAG）-后付费，即可查看各知识库实例的计费项（如标准版-计算资源）及对应目录价（如¥0.03 元/(个*小时)）。

4.1.2 查询明细账单的Token消耗量与对应金额

在账单详情页面中导出，可在账单（按小时聚合）中查看对应时段的 Token 用量（用量列）与对应金额（目录总价列）。

查看向量模型的用量

将鼠标悬停在账单的实例ID上方：如果实例ID形如llm-xxx;xxx-embedding-xxx;embedding_token;RAG;0，表示该账单由向量模型产生。

在账单详情页面，将账单日期设为按月，产品名称筛选为大模型服务平台百炼，商品名称筛选为百炼大模型推理，含应付金额为0选择是。账单明细表格按小时粒度展示Token消耗，包含服务开始/结束时间、计费项名称、用量、用量单位（千Tokens）、官网目录价、目录总价等列。例如某行用量为0.073千Tokens，官网目录价为¥0.0005/千Tokens，按计费公式（官网目录价×用量）计算，目录总价为¥0.0000365。

查看排序模型的用量

将鼠标悬停在账单的实例ID上方：如果实例ID形如llm-xxx;xxx-rerank;embedding_token;RAG;0，表示该账单由排序模型产生。

在账单详情页面，将产品名称筛选为大模型服务平台百炼，商品名称筛选为百炼大模型推理。账单明细表格中计费项名称为"文本向量用量"，可查看各时段的用量（单位：千tokens）及对应目录总价。例如某时段用量为0.213千tokens，对应目录总价为¥0.0001065。

4.2 分账管理

如果您需要将费用归属到不同的部门或项目，可以使用“标签”功能对业务空间进行标记。

步骤一：获取业务空间信息

在业务空间管理确定标签绑定的业务空间Workspace ID（示例：llm-xxx）。

步骤二：绑定标签

在标签管理页面选择资源绑定标签。
资源选择方式选择“输入多个资源ID”，在产品选项卡搜索并选择“大模型服务平台百炼:业务空间”并选择业务空间对应地域，资源ID输入框中填写Workspace ID，完成后点击绑定标签按钮执行操作。
在绑定标签页面中创建标签键值或使用已创建的预置标签与业务空间绑定，当完成键值输入或选择好预置标签后点击确认即可完成业务空间标签的绑定。
操作完成后弹出绑定资源结果确认弹窗，以表格形式展示各资源的资源ID、操作状态及失败原因，确认无误后单击知道了关闭弹窗。

步骤三：验证

至此您已完成对阿里云百炼业务空间的标签绑定，您可在账单详情页面通过实例标签列验证与查询业务空间的绑定标签。

新创建的实例标签存在一定时间（小时级）延迟。

筛选时可将 产品名称 设置为 大模型服务平台百炼，商品名称 设置为 百炼知识库（RAG）-后付费。

4.3 欠费

阿里云账户欠费后，其所有知识库将会进入暂停服务状态（无法通过控制台或 API 检索、更新或创建知识库），并停止计费。

向量存储使用平台存储：
- 0–14 天：无法通过控制台或 API 检索、更新或创建知识库，但保留已有数据。在前 14 天内补缴所有欠费账单后，将自动恢复正常。
- ≥15 天：欠费后第 15 天，视为主动放弃知识库后付费服务。阿里云百炼将会释放相关知识库并永久删除其数据，无法恢复。
向量存储使用自购 ADB-PG：
- 0-7天： 无法通过控制台或 API 检索、更新或创建知识库，但保留已有数据。在前 7 天内补缴所有欠费账单后，将自动恢复正常。
- ≥8 天：欠费后第 8 天，视为主动放弃 ADB-PG 后付费服务。ADB-PG 将会清理知识库相关实例并永久删除其数据，无法恢复。详见ADB-PG欠费说明。
  说明
  使用自购 ADB-PG 时，数据保留期遵循 ADB-PG 的欠费策略，为 7 天（非 14 天）。

5. 常见问题

子账号可以开通知识库或查看账单吗？
可以。经授权的子账号（系统策略AliyunBailianFullAccess 或 AliyunSFMFullAccess）可开通知识库，费用归属于主账号。相关权限配置请参见权限管理。
标准版和旗舰版的“存储免费”具体指什么？
仅指平台存储免费。自购 ADB-PG 由 ADB-PG 服务计费，不包含在知识库账单内。
知识库数据量很大，旗舰版的平台存储不够用怎么办？
您可以在创建知识库时，选择使用您自购的 ADB-PG 实例作为向量存储。具体配置方法请参见创建知识库章节。
配置变更跨小时如何计费？
按变更发生时间分段计费，同一小时内按各时间段占比累加。示例请参见配置变更（分段计费）。
为什么我的排序（Rerank）费用特别高？如何降低模型调用费用？
排序（Rerank）模型的费用与您最终返回的结果数量无关，而是由初步召回的文本切片总数决定的。降低模型调用费用详见本文2.2.4 费用优化建议内容。
如何彻底停止知识库的计费？删除库内文件可以吗？
不可以。停止计费的唯一方法是删除整个知识库实例。
- 错误操作：仅删除知识库内的文件，只是清除了数据，但知识库实例（作为计费主体）仍在运行，因此规格费用会持续产生。
- 正确操作：在控制台找到对应的知识库实例，并执行删除操作。
重要
删除操作会永久清除知识库内的数据且无法恢复，请谨慎操作。
为什么排序模型调用次数会多于应用调用次数？
这是系统为提升性能进行的自动优化。当送入排序模型的单次请求包含大量切片时，系统会将其拆分为多个批次（Batch）来调用排序模型，以加快处理速度。
这会使排序模型的调用次数记录增加，但总费用不变，因为计费只与总Token消耗量相关，与调用次数无关。