AI搜索开发平台支持的大模型服务-智能开放搜索 OpenSearch(Open Search)-阿里云帮助中心

AI搜索开放平台支持通过API的方式调用大模型服务，包含基于阿里巴巴自研模型底座微调的RAG专属大模型，可结合文档处理、检索服务等，在RAG场景中广泛应用，提升答案的准确率，降低幻觉率。

服务名称	服务ID （service_id）	服务描述	API调用QPS限制（含主账号与RAM子账号）
Qwen3-235B-A22B	qwen3-235b-a22b	新一代Qwen系列大型语言模型，基于广泛的训练，Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展，可支持100多种语言和方言，具备强大的多语言理解、推理和生成能力。	3 说明如需扩充QPS，请通过工单联系技术支持协助。
OpenSearch-千问-Turbo	ops-qwen-turbo	以qwen-turbo大规模语言模型为模型底座，进行有监督的模型微调，强化检索增强，减少有害性。
千问-Turbo	qwen-turbo	千问系列速度最快、成本极低的模型，适合简单任务。
千问-Plus	qwen-plus	能力均衡，推理效果、成本和速度介于千问-Max和千问-Turbo之间，适合中等复杂任务。
千问-Max	qwen-max	千问系列效果最好的模型，适合复杂、多步骤的任务。
DeepSeek-R1	deepseek-r1	专注于复杂推理任务的大语言模型，在复杂指令理解、结果准确性等方面表现较突出，并支持开启联网搜索功能。
DeepSeek-V3	deepseek-v3	DeepSeek-V3是一款MoE模型，在长文本、代码、数学、百科、中文能力上表现优秀。
DeepSeek-R1-distill-qwen-7b	deepseek-r1-distill-qwen-7b	基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。
DeepSeek-R1-distill-qwen-14b	deepseek-r1-distill-qwen-14b	基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。
DeepSeek-V4-Pro	deepseek-v4-pro	旗舰级MoE大模型，总参1.6T、激活49B，原生支持百万级超长上下文。依托海量高质量训练数据，具备顶尖数学逻辑、复杂推理、专业代码与长文本深度解析能力，适配高阶科研、复杂办公、深度智能代理等高难度场景。
DeepSeek-V4-Flash	deepseek-v4-flash	高效轻量化MoE模型，总参284B，激活13B，原生支持百万超长上下文能力。推理速度快、延迟低、调用成本低廉，综合能力均衡，主打高并发、轻量化任务，适合日常对话、内容创作、基础RAG、批量文案处理等普惠刚需场景。

前提条件

获取身份鉴权信息
通过API调用AI搜索开放平台服务时，需要对调用者身份进行鉴权，如何获取鉴权信息请参见获取API-KEY。
获取服务调用地址
支持通过公网和VPC两种方式调用服务，详情请参见获取服务接入地址。

请求说明

公共说明

请求body最大不能超过8MB。

HTTP请求方式

POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}

参数说明：

host：调用服务的地址，支持通过公网和VPC两种环境调用API服务，可参见获取服务接入地址。

在API Keys页面的访问域名区域，可分别查看公网API域名和私网API域名（VPC环境），选择对应域名作为host地址。页面顶部可通过下拉框切换目标工作空间。
workspace_name：工作空间名称，例如default。
service_id：系统内置服务id，例如ops-qwen-turbo。

请求参数

Header参数

API-KEY认证

参数	类型	必填	描述	示例值
Content-Type	String	是	请求类型：application/json	application/json
Authorization	String	是	API-Key	Bearer OS-d1**2a

Body参数

参数	类型	必填	描述	示例值
messages	List	是	用户与模型的对话历史。list中的每个元素形式为{"role"：角色, "content": 内容}，角色当前可选值：system、user、assistant。 system：表示系统级消息，只能用于对话历史的第一条（messages[0]）。使用system角色是可选的，如果存在，必须位于列表的最开始。 user和assistant：表示用户和模型的对话。它们应交替出现在对话中，模拟实际对话流程，最后一个message的role必须为user。
stream	Boolean	否	是否流式返回，默认为false。当为true时，每次输出为当前生成的整个序列，最后一次输出为最终全部生成结果。	false
enable_search	Boolean	否	是否联网搜索，默认为false。当为true时，大模型会使用内部的prompt，判断是否需要进行联网搜索。说明当前只支持deepseek-r1。	false
csi_level	String	否	绿网过滤级别，默认为strict 可选项有： none ：无绿网过滤。 loose：宽松过滤。 strict：严格过滤。 rigorous：极严过滤。	strict
parameters	Map	否	请求大模型可调整参数。	无
parameters.search_return_result	Boolean	否	仅当enable_search为true时，该参数生效。 true：返回联网搜索结果。 false：不返回联网搜索结果。	false
parameters.search_top_k	Integer	否	联网搜索返回结果数量。说明仅当enable_search为true时，该参数生效。该参数只支持deepseek-r1模型。	5
parameters.search_way	String	否	联网搜索策略，同联网搜索接口。 normal:（默认值）正常模式：会使用大模型对query进行重写，并进行联网搜索，对搜索结果进行向量化过滤. fast：急速模式：会使用大模型对query进行重写，并进行联网搜索，不会对搜索结果进行过滤。 full：全功能模式：会使用大模型对query进行重写，并进行联网搜索，使用大模型对搜索结果进行评判和过滤。说明仅当enable_search为true时，该参数生效。该参数只支持deepseek-r1模型。	normal
parameters.seed	Integer	否	生成时使用的随机数种子，用户控制模型生成内容的随机性。seed支持无符号64位整数。在使用seed时，模型将尽可能生成相同或相似的结果，但目前不保证每次生成的结果完全相同。	"parameters":{"seed":666}
parameters.max_tokens	Integer	否	用于限制模型生成token的数量，表示生成token个数的上限。其中qwen-turbo最大值和默认值为1500，qwen-max和qwen-plus最大值和默认值均为2000。	"parameters":{"max_tokens":1500}
parameters.top_p	Float	否	生成时，核采样方法的概率阈值。例如，取值为0.8时，仅保留累计概率之和大于等于0.8的概率分布中的token，作为随机采样的候选集。取值范围为（0,1.0），取值越大，生成的随机性越高；取值越低，生成的随机性越低。注意，取值不要大于等于1。	"parameters":{"top_p":0.7}
parameters.top_k	Integer	否	生成时，采样候选集的大小。例如，取值为50时，仅将单次生成中得分最高的50个token组成随机采样的候选集。取值越大，生成的随机性越高；取值越小，生成的确定性越高。注意：如果top_k参数为空或者top_k的值大于100，表示不启用top_k策略，此时仅有top_p策略生效。	"parameters":{"top_k":50}
parameters.repetition_penalty	Float	否	用于控制模型生成时连续序列中的重复度。提高repetition_penalty时可以降低模型生成的重复度。1.0表示不作惩罚。没有严格的取值范围，只要大于0即可。	"parameters":{"repetition_penalty":1.0}
parameters.presence_penalty	Float	否	用户控制模型生成时整个序列中的重复度。提高presence_penalty时可以降低模型生成的重复度，取值范围 [-2.0, 2.0]。	"parameters":{"presence_penalty":1.0}
parameters.temperature	Float	否	用于控制随机性和多样性的程度。具体来说，temperature值控制了生成文本时对每个候选词的概率分布进行平滑的程度。较高的temperature值会降低概率分布的峰值，使得更多的低概率词被选择，生成结果更加多样化；而较低的temperature值则会增强概率分布的峰值，使得高概率词更容易被选择，生成结果更加确定。取值范围：[0, 2)，不建议取值为0，无意义。	"parameters":{"temperature":0.85}
parameters.stop	string/array	否	stop参数用于实现内容生成过程的精确控制，在模型生成的内容即将包含指定的字符串或token_id时自动停止，生成的内容不包含指定的内容。stop可以为string类型或array类型。 string类型当模型将要生成指定的stop词语时停止。例如将stop指定为"你好"，则模型将要生成“你好”时停止。 array类型 array中的元素可以为token_id或者字符串，或者元素为token_id的array。当模型将要生成的token或其对应的token_id在stop中时，模型生成将会停止。例如将stop指定为`["你好","天气"]`或者`[108386,104307]`，则模型将要生成“你好”或者“天气”时停止。如果将stop指定为`[[108386, 103924],[35946, 101243]]`，则模型将要生成“你好啊”或者“我很好”时停止。说明 stop为array类型时，不可以将token_id和字符串同时作为元素输入，比如不可以指定stop为`["你好",104307]`。	"parameters":{"stop":["你好","天气"]}

说明

ops-qwen-turbo的最大tokens限制为4000。

返回参数

参数	类型	描述	示例值
result.text	String	本次模型生成的文本。	郑州是一个...
result.search_results	List<SearchResult>	当开启联网搜索时，参数search_return_source=true返回联网搜索结果。	[]
result.search_results[].title	String	搜索结果标题。	郑州今日天气
result.search_results[].url	String	搜索结果链接。	https://xxxx.com
result.search_results[].snippet	String	搜索结果网页内容简要。	郑州今日天气晴
usage.output_tokens	Integer	模型生成内容的Token长度。	100
usage.input_tokens	Integer	用户输入内容的Token长度。	100
usage.total_tokens	Integer	用户输入和模型生成内容的总Token数。	200

Curl请求示例

curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer 您的API-KEY" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
      "messages":[
      {
          "role":"system",
          "content":"你是一个机器人助手"
      },
      {
          "role":"user",
          "content":"河南的省会是哪里"
      },
      {
          "role":"assistant",
          "content":"郑州"
      },
      {
          "role":"user",
          "content":"郑州今天天气如何"
      }
      ],
      "parameters":{
          "search_return_result":true,
          "search_top_k":5,  //该参数只支持deepseek-r1模型
          "search_way":"normal"  //该参数只支持deepseek-r1模型
      },
       "stream":false,
       "enable_search":true  //开启联网搜索功能
}'

响应示例

正常响应示例

{
  "request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
  "latency": 564.903929,
  "result": {
    "text":"根据最新的天气预报，郑州市今天白天阴天，气温大约在9°C到19°C之间，东北风2级左右......"
     "search_results":[
      {
        "url":"https://xxxxx.com",
        "title":"xxxx",
        "snippet":"郑州今日天气晴"
      }
    ]
   },
  "usage": {
      "output_tokens": 934,
      "input_tokens": 798,
      "total_tokens": 1732
  }
}

异常响应示例

在访问请求出错的情况下，输出的结果中会通过code和message指明出错原因。

{
    "request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
    "latency": 0,
    "code": "InvalidParameter",
    "message": "JSON parse error: Unexpected character ..."
}

状态码说明

请参见AI搜索开放平台状态码说明。