Cherry Studio 是主流的大模型桌面客户端。它支持大模型 API 与 MCP 服务器集成,也可连接 Embedding API 实现本地知识库问答。
效果展示
以导入限流文档,集成网页抓取 MCP 工具,探索限流报错的解决方案为例:

原始动图较长,此处进行加速处理。
如何使用
前提条件
安装 Cherry Studio
前往下载界面,根据系统类型下载安装包;
获取 API 密钥
您需要获取与配置 API Key,并开通阿里云百炼的模型服务;
配置模型
单击右上角的设置按钮,在模型服务栏中找到阿里云百炼,在API 密钥输入您的 API Key;在API 地址输入对应区域的URL;单击添加。
中国大陆版(北京)地域 URL:
https://dashscope.aliyuncs.com/compatible-mode/v1国际版(新加坡)地域 URL:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1

在模型 ID填入您需要使用的模型,此处以
qwen-plus-latest为例。如需选择其它模型,请参见模型列表,模型的支持情况以实际效果为准。
如果您是 RAM 用户,请参见业务空间管理,确保拥有模型的调用权限。
应用场景
本文通过简单对话、MCP与本地知识库问答三个场景,介绍如何将阿里云百炼的模型与 MCP 服务集成到 Cherry Studio。
简单对话
单击对话按钮,在输入框中输入“你是谁”,qwen-plus-latest 模型会在思考后进行回答。

qwen-plus-latest 为混合思考模型,可通过输入框的
按钮控制是否开启思考模式。
调用 MCP 工具
Cherry Studio 是先进的 MCP 客户端,可通过界面化操作为模型提供工具参考信息。
1. 获取 MCP 工具
以接入 ModelScope 提供的Fetch 网页抓取MCP 服务器为例。通过右侧的服务配置信息,获取专属URL。

2. 添加 MCP 服务器
单击 Cherry Studio 右上角的设置按钮,单击 MCP,在新页面中单击添加-从 JSON 导入,粘贴上图服务配置信息中的 JSON 配置信息。

上图为添加 MCP 服务器成功状态。
3. 提问
回到对话框,单击 MCP 服务器的图标
,并选中添加的Fetch,此时 MCP 服务器的图标变绿
。
向输入框输入问题“https://help.aliyun.com/zh/model-studio/rate-limit 请问我遇到限流报错应该怎么办?”,Cherry Studio 通过Fetch工具获取指定网页的内容,并准确回答问题:

查询本地知识库
阿里云百炼提供 Embedding 模型与 Rerank 模型 API,可无缝集成至 Cherry Studio 的本地知识库功能。
据 Cherry Studio 官方文档介绍,在 Cherry Studio 知识库中添加的数据全部存储在本地。
1. 添加 Embedding 与 Rerank 模型(可选) API
单击右上角的设置按钮,在模型服务栏中找到阿里云百炼,添加text-embedding-v4(嵌入模型),Cherry Studio 会自动识别模型功能并标记在模型名称后。
为提升检索效果,您可额外添加gte-rerank-v2(重排模型),以增强召回文本与提问的相关性。该模型仅支持中国大陆(北京)地域,需使用对应的 API 地址。

2. 创建知识库
在对话框,单击知识库的图标
,单击添加知识库,在知识库页面单击添加以创建知识库。

2.1. 配置嵌入模型与重排模型
名称输入“百炼错误信息文档”,嵌入模型下拉框选择text-embedding-v4,重排模型下拉框选择gte-rerank-v2,其它选项保持默认,单击确定。
暂无法配置多模态向量模型multimodal-embedding-v1。
2.2. 添加知识
Cherry Studio 提供了文件、目录、网址等多种添加知识的途径,此处以网址信息为例。选中网址后单击添加网址,输入https://help.aliyun.com/zh/model-studio/error-code。等待界面显示嵌入完成
,即可返回对话界面进行提问。
2.3. 提问
返回对话界面,单击知识库按钮,选中百炼错误信息文档。

以用户在使用阿里云百炼时可能遇到的常见问题为例,输入:“Input data may contain inappropriate content.这种报错该咋解决”,可得到以下回答:

常见问题
Q:Qwen3 模型为何报错 The value of the enable_thinking parameter is restricted to True?
A:原因:可能使用了 Qwen3 开源版的 Thinking 模型,该类模型仅支持在思考模式下运行(详情请参见模型列表),但您在调用时关闭了输入框的思考按钮。
解决方案:更新 Cherry Studio 客户端,或在使用 Qwen3 Thinking 模型时打开思考按钮。
Q:为什么有免费额度但产生了费用?
A:可能的原因如下:
免费额度地域限制:免费额度仅适用于中国大陆版(北京)地域的模型,如果您使用了国际版(新加坡)地域的模型,则会产生费用。请检查您在配置模型处使用的API 地址是否正确,详情请参见新人免费额度。
免费额度按模型独立计算:各模型的免费额度相互独立,不可跨模型共享。例如,当qwen-max模型的免费额度耗尽后,继续调用该模型会产生费用,即便其他模型(如qwen-max-latest)仍有可用免费额度。
免费额度数据更新延迟:控制台显示的免费额度数据每小时更新。因此,即使控制台显示仍有余量,您的免费额度也可能已经耗尽,导致产生了调用费用。建议您稍后再次查看最新的免费额度情况。
您可以通过如何查看产生费用的模型?及如何查看模型调用记录?确认费用详情。