AI搜索开放平台支持通过API的方式调用大模型服务,包含基于阿里巴巴自研模型底座微调的RAG专属大模型,可结合文档处理、检索服务等,在RAG场景中广泛应用,提升答案的准确率,降低幻觉率。
|
服务名称 |
服务ID (service_id) |
服务描述 |
API调用QPS限制 (含主账号与RAM子账号) |
|
Qwen3-235B-A22B |
qwen3-235b-a22b |
新一代Qwen系列大型语言模型,基于广泛的训练,Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展,可支持100多种语言和方言,具备强大的多语言理解、推理和生成能力。 |
3 说明 如需扩充QPS,请通过工单联系技术支持协助。 |
|
QwQ深度思考模型 |
qwq-32b |
基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。 |
|
|
OpenSearch-千问-Turbo |
ops-qwen-turbo |
以qwen-turbo大规模语言模型为模型底座,进行有监督的模型微调,强化检索增强,减少有害性。 |
|
|
千问-Turbo |
qwen-turbo |
千问系列速度最快、成本极低的模型,适合简单任务。 |
|
|
千问-Plus |
qwen-plus |
能力均衡,推理效果、成本和速度介于千问-Max和千问-Turbo之间,适合中等复杂任务。 |
|
|
千问-Max |
qwen-max |
千问系列效果最好的模型,适合复杂、多步骤的任务。 |
|
|
DeepSeek-R1 |
deepseek-r1 |
专注于复杂推理任务的大语言模型,在复杂指令理解、结果准确性等方面表现较突出,并支持开启联网搜索功能。 |
|
|
DeepSeek-V3 |
deepseek-v3 |
DeepSeek-V3是一款MoE模型,在长文本、代码、数学、百科、中文能力上表现优秀。 |
|
|
DeepSeek-R1-distill-qwen-7b |
deepseek-r1-distill-qwen-7b |
基于知识蒸馏技术,通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。 |
|
|
DeepSeek-R1-distill-qwen-14b |
deepseek-r1-distill-qwen-14b |
基于知识蒸馏技术,通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。 |
前提条件
获取身份鉴权信息
通过API调用AI搜索开放平台服务时,需要对调用者身份进行鉴权,如何获取鉴权信息请参见获取API-KEY。
获取服务调用地址
支持通过公网和VPC两种方式调用服务,详情请参见获取服务接入地址。
请求说明
公共说明
-
请求body最大不能超过8MB。
HTTP请求方式
POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/text-generation/{service_id}
参数说明:
-
host:调用服务的地址,支持通过公网和VPC两种环境调用API服务,可参见获取服务接入地址。

-
workspace_name:工作空间名称,例如default。
-
service_id: 系统内置服务id,例如ops-qwen-turbo。
请求参数
Header参数
API-KEY认证
|
参数 |
类型 |
必填 |
描述 |
示例值 |
|
Content-Type |
String |
是 |
请求类型:application/json |
application/json |
|
Authorization |
String |
是 |
API-Key |
Bearer OS-d1**2a |
Body参数
|
参数 |
类型 |
必填 |
描述 |
示例值 |
|
messages |
List |
是 |
用户与模型的对话历史。list中的每个元素形式为{"role":角色, "content": 内容},角色当前可选值:system、user、assistant。
|
|
|
stream |
Boolean |
否 |
是否流式返回,默认为false。 当为true时,每次输出为当前生成的整个序列,最后一次输出为最终全部生成结果。 |
false |
|
enable_search |
Boolean |
否 |
是否联网搜索,默认为false。 当为true时,大模型会使用内部的prompt,判断是否需要进行联网搜索。 说明
当前只支持deepseek-r1。 |
false |
|
csi_level |
String |
否 |
绿网过滤级别,默认为strict 可选项有:
|
strict |
|
parameters |
Map |
否 |
请求大模型可调整参数。 |
无 |
|
parameters.search_return_result |
Boolean |
否 |
仅当enable_search为true时,该参数生效。
|
false |
|
parameters.search_top_k |
Integer |
否 |
联网搜索返回结果数量。 说明
仅当enable_search为true时,该参数生效。该参数只支持deepseek-r1模型。 |
5 |
|
parameters.search_way |
String |
否 |
联网搜索策略,同联网搜索接口。
说明
仅当enable_search为true时,该参数生效。该参数只支持deepseek-r1模型。 |
normal |
|
parameters.seed |
Integer |
否 |
生成时使用的随机数种子,用户控制模型生成内容的随机性。seed支持无符号64位整数。在使用seed时,模型将尽可能生成相同或相似的结果,但目前不保证每次生成的结果完全相同。 |
"parameters":{"seed":666} |
|
parameters.max_tokens |
Integer |
否 |
用于限制模型生成token的数量,表示生成token个数的上限。其中qwen-turbo最大值和默认值为1500,qwen-max和qwen-plus最大值和默认值均为2000。 |
"parameters":{"max_tokens":1500} |
|
parameters.top_p |
Float |
否 |
生成时,核采样方法的概率阈值。例如,取值为0.8时,仅保留累计概率之和大于等于0.8的概率分布中的token,作为随机采样的候选集。取值范围为(0,1.0),取值越大,生成的随机性越高;取值越低,生成的随机性越低。注意,取值不要大于等于1。 |
"parameters":{"top_p":0.7} |
|
parameters.top_k |
Integer |
否 |
生成时,采样候选集的大小。例如,取值为50时,仅将单次生成中得分最高的50个token组成随机采样的候选集。取值越大,生成的随机性越高;取值越小,生成的确定性越高。注意:如果top_k参数为空或者top_k的值大于100,表示不启用top_k策略,此时仅有top_p策略生效。 |
"parameters":{"top_k":50} |
|
parameters.repetition_penalty |
Float |
否 |
用于控制模型生成时连续序列中的重复度。提高repetition_penalty时可以降低模型生成的重复度。1.0表示不作惩罚。没有严格的取值范围,只要大于0即可。 |
"parameters":{"repetition_penalty":1.0} |
|
parameters.presence_penalty |
Float |
否 |
用户控制模型生成时整个序列中的重复度。提高presence_penalty时可以降低模型生成的重复度,取值范围 [-2.0, 2.0]。 |
"parameters":{"presence_penalty":1.0} |
|
parameters.temperature |
Float |
否 |
用于控制随机性和多样性的程度。具体来说,temperature值控制了生成文本时对每个候选词的概率分布进行平滑的程度。较高的temperature值会降低概率分布的峰值,使得更多的低概率词被选择,生成结果更加多样化;而较低的temperature值则会增强概率分布的峰值,使得高概率词更容易被选择,生成结果更加确定。 取值范围:[0, 2),不建议取值为0,无意义。 |
"parameters":{"temperature":0.85} |
|
parameters.stop |
string/array |
否 |
stop参数用于实现内容生成过程的精确控制,在模型生成的内容即将包含指定的字符串或token_id时自动停止,生成的内容不包含指定的内容。stop可以为string类型或array类型。
|
"parameters":{"stop":["你好","天气"]} |
ops-qwen-turbo的最大tokens限制为4000。
返回参数
|
参数 |
类型 |
描述 |
示例值 |
|
result.text |
String |
本次模型生成的文本。 |
郑州是一个... |
|
result.search_results |
List<SearchResult> |
当开启联网搜索时,参数search_return_source=true返回联网搜索结果。 |
[] |
|
result.search_results[].title |
String |
搜索结果标题。 |
郑州今日天气 |
|
result.search_results[].url |
String |
搜索结果链接。 |
https://xxxx.com |
|
result.search_results[].snippet |
String |
搜索结果网页内容简要。 |
郑州今日天气晴 |
|
usage.output_tokens |
Integer |
模型生成内容的Token长度。 |
100 |
|
usage.input_tokens |
Integer |
用户输入内容的Token长度。 |
100 |
|
usage.total_tokens |
Integer |
用户输入和模型生成内容的总Token数。 |
200 |
Curl请求示例
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer 您的API-KEY" \
"http://xxxx-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/text-generation/qwen-max" \
-d '{
"messages":[
{
"role":"system",
"content":"你是一个机器人助手"
},
{
"role":"user",
"content":"河南的省会是哪里"
},
{
"role":"assistant",
"content":"郑州"
},
{
"role":"user",
"content":"郑州今天天气如何"
}
],
"parameters":{
"search_return_result":true,
"search_top_k":5, //该参数只支持deepseek-r1模型
"search_way":"normal" //该参数只支持deepseek-r1模型
},
"stream":false,
"enable_search":true //开启联网搜索功能
}'
响应示例
正常响应示例
{
"request_id": "450fcb80-f796-****-8d69-e1e86d29aa9f",
"latency": 564.903929,
"result": {
"text":"根据最新的天气预报,郑州市今天白天阴天,气温大约在9°C到19°C之间,东北风2级左右......"
"search_results":[
{
"url":"https://xxxxx.com",
"title":"xxxx",
"snippet":"郑州今日天气晴"
}
]
},
"usage": {
"output_tokens": 934,
"input_tokens": 798,
"total_tokens": 1732
}
}
异常响应示例
在访问请求出错的情况下,输出的结果中会通过code和message指明出错原因。
{
"request_id": "45C8C9E5-6BCB-****-80D3-E298F788512B",
"latency": 0,
"code": "InvalidParameter",
"message": "JSON parse error: Unexpected character ..."
}
状态码说明
请参见AI搜索开放平台状态码说明。