文档

三方开源大语言模型

更新时间:
一键部署

本文主要介绍阿里云百炼平台引入上架的三方开源大语言模型基本信息,计费情况等调用必备基础信息。

基本信息

重要

三方开源大模型API调用需申请后开通体验,请点击“立即申请”,申请通过后才能调用。

模型服务

模型名称

模型描述

特征

Llama3大语言模型

llama3-8b-instruct

Llama3系列是来自Meta开发并公开发布的最新大型语言模型(LLMs)。该系列模型提供了多种参数大小(8B、70B等)的版本。相较于Llama2系列模型,Llama3系列在模型结构上没有重大变化,但是训练数据量进行了极大扩充,从Llama2系列的2T Tokens扩大到了Llama3的15T Tokens,其中代码数据扩充了4倍。当前在大模型服务平台百炼部署的服务分别来自于ModelScope社区模型:

LLaMa3系列模型,模型最大输入为6500,最大输出为1500,仅支持message格式。

llama3-70b-instruct

Llama2大语言模型

llama2-7b-chat-v2

来自Meta开发并公开发布的大型语言模型(LLMs)。

该系列模型提供了多种参数大小(7B、13B和70B等)的版本,并同时提供了预训练和针对对话场景的微调版本。 Llama 2系列使用了2T token进行训练,相比于llama多出40%,上下文长度从llama的2048升级到4096,可以理解更长的文本,在多个公开基准测试上超过了已有的开源模型。采用了高质量的数据进行微调和基于人工反馈的强化学习训练,具有较高的可靠性和安全性。

阿里云百炼提供的llama2-7b-chat-v2和llama2-13b-chat-v2,分别为7B和13B规模的LLaMa2模型,针对对话场景微调优化后的版本。

llama2-13b-chat-v2

百川模型1

baichuan-7b-v1

由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

支持prompt格式输入

百川模型2-7B对话版

baichuan2-7b-chat-v1

百川模型2-7B对话版/百川模型2-13B对话版,支持message和prompt格式输入

百川模型2-13B对话版

baichuan2-13b-chat-v1

MOSS开源对话语言模型

moss-moon-003-base

MOSS-MOON-003-SFT模型是复旦大学出品的大规模语言模型,它在灵积平台上的模型名称为"moss-moon-003-sft-v1"。MOSS是一个支持中英双语和多种插件的开源对话语言模型,MOSS-MOON系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

支持中英双语和多种插件的开源对话语言模型

moss-moon-003-sft

ChatGLM2开源双语对话语言模型

chatglm-6b-v2

ChatGLM2是开源中英双语对话模型ChatGLM-6B的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B引入了如下新特性:

  1. 更强大的性能:基于 ChatGLM 初代模型的开发经验,全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了GLM的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。

  2. 更长的上下文:基于FlashAttention技术,将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限,会在后续迭代升级中着重进行优化。

  3. 更高效的推理:基于Multi-Query Attention技术,ChatGLM2-6B有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了42%,INT4量化下,6G显存支持的对话长度由1K提升到了8K。

该模型为ChatGLM3系列,支持输入输出token合计是7500,其中单轮最大输出token为1500,单轮最大输入token为6000(如果超过该阈值按最后一次完整的对话进行截断),支持message和prompt格式输入,支持流式调用。

ChatGLM3开源双语对话语言模型

chatglm3-6b

ChatGLM3是ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:

  1. 更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的预训练模型中最强的性能。

  2. 更完整的功能支持:ChatGLM3-6B 采用了全新设计的Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。

  3. 更全面的开源序列:除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM-6B-Base、长文本对话模型 ChatGLM3-6B-32K。

该模型为ChatGLM3系列,支持输入输出token合计是7500,其中单轮最大输出token为1500,单轮最大输入token为6000(如果超过该阈值按最后一次完整的对话进行截断),支持message和prompt格式输入,支持流式调用。

姜子牙通用大3模型

ziya-llama-13b-v1

由IDEA研究院出品的大规模语言模型,它在灵积平台上的模型名称为"ziya-llama-13b-v1"。Ziya-LLaMA大模型V1是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前Ziya-LLaMA通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。3是ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:

姜子牙通用大模型V1是大规模预训练语言模型,支持中文英文等不同语言输入。

Dolly开源大语言姜子牙通用大模型

dolly-12b-v2

Databricksdolly-12b-v2"。该模型是在pythia-12b的基础上,使用databricks-dolly-15k数据集微调得到的。数据集包括头脑风暴、分类、生成、问答、信息抽取等任务的语料。更多信息可以参考由IDEA研究院出品的大规模语言模型,它在灵积平台上的模型名称为"ziya-llama-13b-v1"。Ziya-LLaMA大模型V1是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前Ziya-LLaMA通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。Dolly的开源repo

Dolly超大规模语言模型,支持多语言输入,V2版本是Databricks在pythia-12b的基础上微调得到的12B参数规模大模型。

BELLE开源中文对话大模型

belle-llama-13b-2m-v1

BELLE-LLaMA模型是由BELLE出品的大规模语言模型,它在灵积平台上的模型名称为"belle-llama-13b-2m-v1"。BELLE(BE Large Language Model Engine),一款基于BLOOM和LLAMA针对中文优化、模型调优切仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。促进中文对话大模型开源社区的发展,愿景是成为能够帮到每一个人的LLM Engine。相比如何做好大语言模型的预训练,BELLE更关注如何在开源预训练大语言模型的基础上,帮助每一个人都能够得到一个属于自己的、效果尽可能好的具有指令表现能力的语言模型,降低大语言模型、特别是中文大语言模型的研究和应用门槛。为此,BELLE项目会持续开放指令训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。BELLE针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。更多信息可以参考ModelScope上BELLE-LLaMA的开源repo

BELLE中文对话大规模语言模型,支持中文英文等不同语言输入。

元语功能型BELLE开源中文对话大模型V2

chatyuan-large-v2

是由元语智能BELLE出品的大规模语言模型,它在灵积平台上的模型名称为"chatyuan-large-v2"。ChatYuan-large-v2是一个支持中英双语的功能型对话语言大模型,是继ChatYuan系列中ChatYuan-large-v1开源后的又一个开源模型。ChatYuan-large-v2使用了和 v1版本相同的技术方案,在微调数据、人类反馈强化学习、思维链等方面进行了优化belle-llama-13b-2m-v1"。BELLE(BE Large Language Model Engine),一款基于BLOOM和LLAMA针对中文优化、模型调优切仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。

BELLE中文对话中文英文等不同语言输入

BiLLa开源推理能力增强模型

billa-7b-sft-v1

BiLLa模型在灵积平台上的模型名称为"billa-7b-sft-v1"。BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型. 模型的主要特点:

  • 较大提升 LLaMA 的中文理解能力, 并尽可能减少对原始 LLaMA 英文能力的损伤;

  • 训练过程增加较多的任务型数据, 利用 ChatGPT 生成解析, 强化模型理解任务求解逻辑;

  • 全量参数更新, 追求更好的生成效果。

较大提升 LLaMA 的中文理解能力, 并尽可能减少对原始 LLaMA 英文能力的损伤。

计费和限流信息

模型服务

模型名称

计费单价

基础限流

Llama3大语言模型

llama3-8b-instruct

限时免费中

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 10 QPM,每分钟不超过10次API调用;

  • Token消耗 ≤ 20,000 TPM,每分钟消耗的Token数目不超过20,000。

llama3-70b-instruct

Llama2大语言模型

llama2-7b-chat-v2

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 60 QPM,每分钟不超过60次API调用;

  • Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。

llama2-13b-chat-v2

百川模型1

baichuan-7b-v1

限时免费中

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

  • Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。

百川模型2-7B对话版

baichuan2-7b-chat-v1

0.006元/1,000 tokens

百川模型2-13B对话版

baichuan2-13b-chat-v1

0.008元/1,000 tokens

MOSS开源对话语言模型

moss-moon-003-sft

限时免费中

/

moss-moon-003-base

限时免费中

/

ChatGLM2开源双语对话语言模型

chatglm-6b-v2

限时免费中

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

  • Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。

ChatGLM3开源双语对话语言模型

chatglm3-6b

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 120 QPM,每分钟处理不超过120个完整的请求;

  • Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。

姜子牙通用大模型

ziya-llama-13b-v1

限时免费中

/

Dolly开源大语言模型

dolly-12b-v2Dolly

限时免费中

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 10 QPM,每分钟处理不超过10个完整的请求;

  • Token消耗 ≤ 2,500 TPM,每分钟消耗的Token数目不超过2,500。

BELLE开源中文对话大模型

belle-llama-13b-2m-v1

限时免费中

/

元语功能型对话大模型V2

chatyuan-large-v2

限时免费中

/

BiLLa开源推理能力增强模型

billa-7b-sft-v1

限时免费中

/

如果您熟悉编程语言,推荐您使用SDK或API调用通义千问模型,实现灵活定制和开发。SDK或API调用请参考开发指南

  • 本页导读 (1)
文档反馈