配置Chatbox接入大模型-大模型服务平台百炼-阿里云

Chatbox 是一款 AI 客户端应用和智能助手，您无需配置计算环境即可通过 Chatbox 与大模型进行对话。

前提条件

您需要获取API Key，并确保已开通阿里云百炼的模型服务；
在模型列表与价格选择您需要使用的文本生成模型。如果您是 RAM 用户，请参见业务空间管理，确保您有相应模型的调用权限。
由于 Chatbox 的功能可能发生变化，模型的支持情况以实际效果为准。

前往Chatbox，根据您的设备下载并安装合适的版本，或直接启动网页版。

单击 Chatbotx 页面左下方的设置，单击模型提供方，单击底部的添加。

在弹窗中进行编辑。名称输入“阿里云”，API 模式选择 OpenAI API 兼容，单击添加。

配置项	说明
API 密钥	填入您在阿里云百炼申请的 API Key。
API 主机	若使用中国大陆版模型，填入：`https://dashscope.aliyuncs.com/compatible-mode/v1`。若使用国际版模型，填入：`https://dashscope-intl.aliyuncs.com/compatible-mode/v1`。 API 路径无需填写。
模型	在模型处单击新建，在模型ID填入您需要使用的通义千问或 DeepSeek 模型，此处以`qwen3-235b-a22b`为例，勾选推理与工具使用按钮。请根据模型自身能力判断是否勾选按钮，支持推理的模型请参见深度思考与视觉推理，支持工具使用的模型请参见Function Calling。

完成模型与 API 密钥配置后，单击左侧的+新对话，在对话框上方单击进行对话设置。在弹窗设置上下文的消息数量上限与温度参数：

上下文的消息数量上限
每次提问后，大模型参考的历史对话轮数。对于日常聊天对话场景，建议设为5-10。过多的上下文消息数量可能导致报错：Range of input length should be [1, xxx]。
温度
用于控制大模型生成文本的多样性。
- 温度越高，生成的文本更多样，适合内容创作、头脑风暴等场景；
- 温度越低，生成的文本更确定。适合代码撰写、数学推理等场景。
请设置为小于2的数，否则会报错'temperature' must be Float。
Top P
与温度参数作用类似，用于控制生成文本的多样性。
请设置为不大于1的数，否则会报错"xx is greater than the maximum of 1 - 'top_p'"。

完成设置后，单击保存。

在对话框输入问题，即可开始对话。

当前无法传入视频或音频文件进行对话。

在输入框输入“你是谁？”进行测试：

Chatbox 能够将 Qwen3 模型的思考过程与回复内容进行展示。

图片问答需要使用具有视觉能力的模型，您可以在配置时选择Qwen-VL、QVQ 或 Qwen-Omni模型。

参见2.2. 配置模型与 API 密钥，在模型处添加您需要使用的视觉模型，并勾选视觉能力。QVQ 模型请勾选推理能力。

在发送按钮旁选择视觉模型，在输入框中输入问题，并单击传入图片。

qvq-72b-preview 模型不支持多轮对话，仅支持将上下文的消息数量上限设置为0。

Chatbox 界面有选择文件的按钮，您可以传入pdf、docx、txt等类型的文件，使模型基于文档进行回答。

Chatbox 暂时无法解析文档中的图片信息。

拥有较长上下文处理能力的模型适合用于文档问答场景，建议您选择模型列表与价格、Qwen-Long或qwen2.5-14b-instruct-1m、qwen2.5-7b-instruct-1m，这些模型有着百万级别 Token 的处理能力与较低的价格。

参见2.2. 配置模型与 API 密钥，在模型处添加您需要使用的模型。此处以 qwen-flash 为例。

在发送按钮旁选择添加的模型，在输入框中输入问题，并单击传入文档。

基于文档的连续提问可能造成大量的 Token 消耗，为了节省成本，您可以：降低上下文的消息数量上限，减少输入的 Token 数；或优先选择 qwen-flash 模型，该模型支持上下文缓存，可以在多轮对话中降低输入 Token 的费用。

A：阿里云百炼对模型输入与输出的 Token 进行计费，模型 Token 的费用请参见模型列表与价格。

多轮对话会带入历史对话记录，从而消耗较多 Token。您可以新开对话或降低上下文的消息数量上限，减少不必要的 Token 消耗。日常聊天建议设置上下文的消息数量上限为5-10。

A：请您根据报错信息进行排查：

Range of input length should be [1, xxx]
可能是您输入的内容过长，或多轮对话累积的上下文超过模型最大上下文长度。请您根据您的使用情况进行排查：
- 首次对话即报错
  有可能是您输入的文本过长，或传入的文件包含较多 Token，您可以使用 qwen-flash、qwen-long等上下文长度达到 1,000,000的模型来处理您的请求。
- 多轮对话后报错
  有可能是多轮对话累积的 Token 超过了模型的最大上下文长度，您可以参考以下方法：
  1. 新开对话
    大模型回复时将不再参考历史对话。
  2. 减少上下文的消息数量上限
    使大模型回复时仅参考一定范围内的对话记录，避免输入所有历史对话。
  3. 更换模型
    更换为qwen-flash、qwen-long等上下文长度达到 1,000,000的模型以处理更长的上下文，从而进行更多轮的对话。
Access denied, please make sure your account is in good standing.
您可以查看阿里云账户是否欠费。如果欠费，即使模型有免费额度也无法调用。
'temperature' must be Float
模型的 temperature参数需要小于2，您可以将严谨与想象(Temperature)参数设为小于2的数。

如果您的问题不在上述范围，请参见错误信息进行排查。

A：