本文介绍通过 OpenAI 兼容接口 或 DashScope API 调用 Qwen-MT 模型的输入与输出参数。
相关文档:翻译能力(Qwen-MT)
OpenAI 兼容
北京地域
SDK 调用配置的base_url为:https://dashscope.aliyuncs.com/compatible-mode/v1
HTTP 调用配置的endpoint:POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
新加坡地域
SDK 调用配置的base_url为:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
HTTP 调用配置的endpoint:POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
您需要已获取API Key并配置API Key到环境变量。若通过OpenAI SDK进行调用,需要安装SDK。
请求体 | 基础使用PythonNode.jscurl术语干预PythonNode.jscurl翻译记忆PythonNode.jscurl领域提示PythonNode.jscurl |
model 模型名称。支持的模型:qwen-mt-turbo、qwen-mt-plus。 | |
messages 消息数组,用于向大模型传递上下文。仅支持传入 User Message。 | |
stream 是否以流式方式输出回复。 可选值:
说明 Qwen-MT 模型以非增量形式返回数据,暂时无法修改。如: I I didn I didn't I didn't laugh I didn't laugh after ... | |
stream_options 流式输出的配置项,仅在 | |
max_tokens 用于限制模型输出的最大 Token 数。若生成内容超过此值,响应将被截断。 默认值与最大值均为模型的最大输出长度,请参见模型与价格。 | |
seed 随机数种子。用于确保在相同输入和参数下生成结果可复现。若调用时传入相同的 取值范围: | |
temperature 采样温度,控制模型生成文本的多样性。 temperature越高,生成的文本更多样,反之,生成的文本更确定。 取值范围: [0, 2) temperature与top_p均可以控制生成文本的多样性,建议只设置其中一个值。 | |
top_p 核采样的概率阈值,控制模型生成文本的多样性。 top_p越高,生成的文本更多样。反之,生成的文本更确定。 取值范围:(0,1.0] temperature与top_p均可以控制生成文本的多样性,建议只设置其中一个值。 | |
top_k 生成过程中采样候选集的大小。例如,取值为50时,仅将单次生成中得分最高的50个Token组成随机采样的候选集。取值越大,生成的随机性越高;取值越小,生成的确定性越高。取值为None或当top_k大于100时,表示不启用top_k策略,此时仅有top_p策略生效。 取值需要大于或等于0。 该参数非OpenAI标准参数。通过 Python SDK调用时,请放入 extra_body 对象中,配置方式为: | |
repetition_penalty 模型生成时连续序列中的重复度。提高repetition_penalty时可以降低模型生成的重复度,1.0表示不做惩罚。没有严格的取值范围,只要大于0即可。 | |
translation_options 需配置的翻译参数。 该参数非OpenAI标准参数。通过 Python SDK调用时,请放入 extra_body 对象中,配置方式为: |
chat响应对象(非流式输出) | |
id 本次请求的唯一标识符。 | |
choices 模型生成内容的数组。 | |
created 本次请求被创建时的时间戳。 | |
model 本次请求使用的模型。 | |
object 始终为 | |
service_tier 该参数当前固定为 | |
system_fingerprint 该参数当前固定为 | |
usage 本次请求的 Token 消耗信息。 |
chat响应chunk对象(流式输出) | |
id 本次调用的唯一标识符。每个chunk对象有相同的 id。 | |
choices 模型生成内容的数组。若设置 | |
created 本次请求被创建时的时间戳。每个chunk有相同的时间戳。 | |
model 本次请求使用的模型。 | |
object 始终为 | |
service_tier 该参数当前固定为 | |
system_fingerprint 该参数当前固定为 | |
usage 本次请求消耗的Token。只在 |
DashScope
北京地域
HTTP 调用配置的endpoint:POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation
SDK 调用无需配置 base_url。
新加坡地域
HTTP 调用配置的endpoint:POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/text-generation/generation
SDK调用配置的base_url:
Python代码
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'Java代码
方式一:
import com.alibaba.dashscope.protocol.Protocol; Generation gen = new Generation(Protocol.HTTP.getValue(), "https://dashscope-intl.aliyuncs.com/api/v1");方式二:
import com.alibaba.dashscope.utils.Constants; Constants.baseHttpApiUrl="https://dashscope-intl.aliyuncs.com/api/v1";
您需要已获取API Key并配置API Key到环境变量。若通过DashScope SDK进行调用,需要安装DashScope SDK。
请求体 | 基础使用PythonJavacurl术语干预PythonJavacurl翻译记忆PythonJavacurl领域提示PythonJavacurl |
model 模型名称。支持的模型:qwen-mt-turbo、qwen-mt-plus。 | |
messages 消息数组,用于向大模型传递上下文。仅支持传入 User Message。 | |
max_tokens 用于限制模型输出的最大 Token 数。若生成内容超过此值,响应将被截断。 默认值与最大值均为模型的最大输出长度,请参见模型与价格。 Java SDK中为maxTokens。通过HTTP调用时,请将 max_tokens 放入 parameters 对象中。 | |
seed 随机数种子。用于确保在相同输入和参数下生成结果可复现。若调用时传入相同的 取值范围: 通过HTTP调用时,请将 seed 放入 parameters 对象中。 | |
temperature 采样温度,控制模型生成文本的多样性。 temperature越高,生成的文本更多样,反之,生成的文本更确定。 取值范围: [0, 2) temperature与top_p均可以控制生成文本的多样性,建议只设置其中一个值。 通过HTTP调用时,请将 temperature 放入 parameters 对象中。 | |
top_p 核采样的概率阈值,控制模型生成文本的多样性。 top_p越高,生成的文本更多样。反之,生成的文本更确定。 取值范围:(0,1.0] temperature与top_p均可以控制生成文本的多样性,建议只设置其中一个值。 Java SDK中为topP。通过HTTP调用时,请将 top_p 放入 parameters 对象中。 | |
repetition_penalty 模型生成时连续序列中的重复度。提高repetition_penalty时可以降低模型生成的重复度,1.0表示不做惩罚。没有严格的取值范围,只要大于0即可。 Java SDK中为repetitionPenalty。通过HTTP调用时,请将 repetition_penalty 放入 parameters 对象中。 | |
top_k 生成过程中采样候选集的大小。例如,取值为50时,仅将单次生成中得分最高的50个Token组成随机采样的候选集。取值越大,生成的随机性越高;取值越小,生成的确定性越高。取值为None或当top_k大于100时,表示不启用top_k策略,此时仅有top_p策略生效。 取值需要大于或等于0。 Java SDK中为topK。通过HTTP调用时,请将 top_k 放入 parameters 对象中。 | |
stream 是否以流式方式输出回复。 可选值:
说明 Qwen-MT 模型以非增量形式返回数据,暂时无法修改。如: I I didn I didn't I didn't laugh I didn't laugh after ... 该参数仅支持Python SDK。通过Java SDK实现流式输出请通过 | |
translation_options 需配置的翻译参数。 Java SDK中为 |
chat响应对象(流式与非流式输出格式一致) | |
status_code 本次请求的状态码。200 表示请求成功,否则表示请求失败。 Java SDK不会返回该参数。调用失败会抛出异常,异常信息为status_code和message的内容。 | |
request_id 本次调用的唯一标识符。 Java SDK返回参数为requestId。 | |
code 错误码,调用成功时为空值。 只有Python SDK返回该参数。 | |
output 调用结果信息。 | |
usage 本次请求使用的Token信息。 |
错误码
如果模型调用失败并返回报错信息,请参见错误信息进行解决。