AI搜索开放平台支持通过API的方式调用大模型服务,包含基于阿里巴巴自研模型底座微调的RAG专属大模型,可结合文档处理、检索服务等,在RAG场景中广泛应用,提升答案的准确率,降低幻觉率。
服务名称 | 服务ID(service_id) | 服务描述 | API调用QPS限制 (含主账号与RAM子账号) |
Qwen3-235B-A22B | qwen3-235b-a22b | 新一代Qwen系列大型语言模型,基于广泛的训练,Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展,可支持100多种语言和方言,具备强大的多语言理解、推理和生成能力。 | 3 说明 如需扩充QPS,请通过工单联系技术支持协助。 |
QwQ深度思考模型 | qwq-32b | 基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。 | |
OpenSearch-通义千问-Turbo | ops-qwen-turbo | 以qwen-turbo大规模语言模型为模型底座,进行有监督的模型微调,强化检索增强,减少有害性。 | |
通义千问-Turbo | qwen-turbo | 通义千问系列速度最快、成本极低的模型,适合简单任务。 | |
通义千问-Plus | qwen-plus | 能力均衡,推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。 | |
通义千问-Max | qwen-max | 通义千问系列效果最好的模型,适合复杂、多步骤的任务。 | |
DeepSeek-R1 | deepseek-r1 | 专注于复杂推理任务的大语言模型,在复杂指令理解、结果准确性等方面表现较突出,并支持开启联网搜索功能。 | |
DeepSeek-V3 | deepseek-v3 | DeepSeek-V3是一款MoE模型,在长文本、代码、数学、百科、中文能力上表现优秀。 | |
DeepSeek-R1-distill-qwen-7b | deepseek-r1-distill-qwen-7b | 基于知识蒸馏技术,通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。 | |
DeepSeek-R1-distill-qwen-14b | deepseek-r1-distill-qwen-14b | 基于知识蒸馏技术,通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。 |
前提条件
获取身份鉴权信息
通过API调用AI搜索开放平台服务时,需要对调用者身份进行鉴权,如何获取鉴权信息请参见获取API-KEY。
获取服务调用地址
支持通过公网和VPC两种方式调用服务,详情请参见获取服务接入地址。
请求说明
公共说明
请求body最大不能超过8MB。
HTTP请求方式
POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}
参数说明:
host:调用服务的地址,支持通过公网和VPC两种环境调用API服务,可参见获取服务接入地址。
workspace_name:工作空间名称,例如default。
service_id: 系统内置服务id,例如ops-qwen-turbo。
请求参数
Header参数
API-KEY认证
参数 | 类型 | 必填 | 描述 | 示例值 |
Content-Type | String | 是 | 请求类型:application/json | application/json |
Authorization | String | 是 | API-Key | Bearer OS-d1**2a |
Body参数
参数 | 类型 | 必填 | 描述 | 示例值 |
messages | List | 是 | 用户与模型的对话历史。list中的每个元素形式为{"role":角色, "content": 内容},角色当前可选值:system、user、assistant。
| |
stream | Boolean | 否 | 是否流式返回,默认为false。 当为true时,每次输出为当前生成的整个序列,最后一次输出为最终全部生成结果。 | false |
enable_search | Boolean | 否 | 是否联网搜索,默认为false。 当为true时,大模型会使用内部的prompt,判断是否需要进行联网搜索。 | false |
csi_level | String | 否 | 绿网过滤级别,默认为strict 可选项有:
| strict |
parameters | Map | 否 | 请求大模型可调整参数。 | 无 |
parameters.search_return_result | Boolean | 否 | 仅当enable_search为true时,该参数生效。
| false |
parameters.search_top_k | Integer | 否 | 联网搜索返回结果数量。 说明 仅当enable_search为true时,该参数生效。 | 5 |
parameters.search_way | String | 否 | 联网搜索结果过滤模式(默认为fast):
说明 仅当enable_search为true时,该参数生效。 | fast |
parameters.seed | Integer | 否 | 生成时使用的随机数种子,用户控制模型生成内容的随机性。seed支持无符号64位整数。在使用seed时,模型将尽可能生成相同或相似的结果,但目前不保证每次生成的结果完全相同。 | "parameters":{"seed":666} |
parameters.max_tokens | Integer | 否 | 用于限制模型生成token的数量,表示生成token个数的上限。其中qwen-turbo最大值和默认值为1500,qwen-max和qwen-plus最大值和默认值均为2000。 | "parameters":{"max_tokens":1500} |
parameters.top_p | Float | 否 | 生成时,核采样方法的概率阈值。例如,取值为0.8时,仅保留累计概率之和大于等于0.8的概率分布中的token,作为随机采样的候选集。取值范围为(0,1.0),取值越大,生成的随机性越高;取值越低,生成的随机性越低。注意,取值不要大于等于1。 | "parameters":{"top_p":0.7} |
parameters.top_k | Integer | 否 | 生成时,采样候选集的大小。例如,取值为50时,仅将单次生成中得分最高的50个token组成随机采样的候选集。取值越大,生成的随机性越高;取值越小,生成的确定性越高。注意:如果top_k参数为空或者top_k的值大于100,表示不启用top_k策略,此时仅有top_p策略生效。 | "parameters":{"top_k":50} |
parameters.repetition_penalty | Integer | 否 | 用于控制模型生成时连续序列中的重复度。提高repetition_penalty时可以降低模型生成的重复度。1.0表示不作惩罚。没有严格的取值范围,只要大于0即可。 | "parameters":{"repetition_penalty":1.0} |
parameters.presence_penalty | Float | 否 | 用户控制模型生成时整个序列中的重复度。提高presence_penalty时可以降低模型生成的重复度,取值范围 [-2.0, 2.0]。 | "parameters":{"presence_penalty":1.0} |
parameters.temperature | Float | 否 | 用于控制随机性和多样性的程度。具体来说,temperature值控制了生成文本时对每个候选词的概率分布进行平滑的程度。较高的temperature值会降低概率分布的峰值,使得更多的低概率词被选择,生成结果更加多样化;而较低的temperature值则会增强概率分布的峰值,使得高概率词更容易被选择,生成结果更加确定。 取值范围:[0, 2),不建议取值为0,无意义。 | "parameters":{"temperature":0.85} |
parameters.stop | string/array | 否 | stop参数用于实现内容生成过程的精确控制,在模型生成的内容即将包含指定的字符串或token_id时自动停止,生成的内容不包含指定的内容。stop可以为string类型或array类型。
| "parameters":{"stop":["你好","天气"]} |
ops-qwen-turbo的最大tokens限制为4000。
返回参数
参数 | 类型 | 描述 | 示例值 |
result.text | String | 本次模型生成的文本。 | 郑州是一个... |
result.search_results | List<SearchResult> | 当开启联网搜索时,参数search_return_source=true返回联网搜索结果。 | [] |
result.search_results[].title | String | 搜索结果标题。 | 郑州今日天气 |
result.search_results[].url | String | 搜索结果链接。 | https://xxxx.com |
result.search_results[].snippet | String | 搜索结果摘要 | 郑州今日天气 |
usage.output_tokens | Integer | 模型生成内容的Token长度。 | 100 |
usage.input_tokens | Integer | 用户输入内容的Token长度。 | 100 |
usage.total_tokens | Integer | 用户输入和模型生成内容的总Token数。 | 200 |
Curl请求示例
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer 您的API-KEY" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
"messages":[
{
"role":"system",
"content":"你是一个机器人助手"
},
{
"role":"user",
"content":"河南的省会是哪里"
},
{
"role":"assistant",
"content":"郑州"
},
{
"role":"user",
"content":"郑州今天天气如何"
}
],
"parameters":{
"search_return_result":true,
"search_top_k":5,
"search_way":"fast"
},
"Stream":false,
"enable_search":true //开启联网搜索功能
}'
响应示例
正常响应示例
{
"request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
"latency": 564.903929,
"result": {
"text":"根据最新的天气预报,郑州市今天白天阴天,气温大约在9°C到19°C之间,东北风2级左右......"
"search_results":[
{
"url":"https://xxxxx.com",
"title":"郑州今日天气",
"snippet":"郑州今日天气"
}
]
}
"usage": {
"output_tokens": 934,
"input_tokens": 798,
"total_tokens": 1732,
}
}
异常响应示例
在访问请求出错的情况下,输出的结果中会通过code和message指明出错原因。
{
"request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
"latency": 0,
"code": "InvalidParameter",
"message": "JSON parse error: Unexpected character ..."
}
状态码说明
请参见AI搜索开放平台状态码说明。