按OpenAI规范将自研多模态大模型接入实时工作流-智能媒体服务-阿里云

实时工作流支持您按照规定的标准协议来接入多模态大模型（MLLM）。

自研MLLM标准接口（OpenAI规范）

如果您的MLLM接口符合OpenAI标准规范，您可以通过OpenAI标准的配置将您的自研LLM服务整合到工作流中。目前支持以流式方式请求符合OpenAI规范的多模态大语言模型服务。

首先您需要在MLLM多模态大模型节点中，选择自研接入（OpenAI规范），并配置以下参数：

名称	类型	必填	描述	示例值
ModelId	String	是	OpenAI标准model字段，表示模型名称	abc
API-KEY	String	是	OpenAI标准api_key字段，表示API鉴权信息	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目标模型HTTPS地址	String	是	OpenAI标准base_url字段，表示目标服务请求地址	http://www.abc.com
单次调用图片数上限	Integer	是	由于部分多模态大模型单次请求可接收图片帧数量有上限，您可以设置此参数来适配不同的大模型。在请求您的MLLM服务时，会自动按照该值对视频进行抽帧采样。	15

在实时工作流运行期间，将按照以下格式，组装OpenAI标准数据，通过POST请求访问您配置的自研模型HTTPS地址，获取相应结果，输入参数如下：

名称

类型

描述

示例值

messages

Array

历史对话上下文，最多保留20条上下文记录，在数组中越靠前的位置，表示越早的提问或者回答。

说明

目前只支持传入抽帧采样后的JPEG base64编码数据。
历史对话中的图片数据不会作为上下文继续下发。

[
  {
    "role": "user",
    "content": "今天天气怎么样？"
  },
  {
    "role": "assistant",
    "content": "今天天气晴朗。"
  },
  {
    "role": "user",
    "content": "明天天气晴怎么样？"
  },
  {
    "role": "user",
    "content": [
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/jpeg;base64,xxxx"
        }
      },
      {
        "type": "text",
        "text": "这是什么"
      }
    ]
  }
]

model

String

模型名称信息

abc

stream

Boolean

是否流式，目前只支持流式传输

True

extendData

Object

补充信息

{'instanceId':'68e00b6640e*****3e943332fee7','channelId':'123','userData':'{"aaaa":"bbbb"}'}

instanceId

String

实例ID信息

68e00b6640e*****3e943332fee7

channelId

String

房间ID信息

123

userData

String

启动实例时您传入的UserData业务字段数据

{"aaaa":"bbbb"}

自研MLLM标准接口（OpenAI规范）

相关文档