文档

ChatLLM-WebUI版本发布详情

更新时间:

本文为您介绍ChatLLM-WebUI的重要版本发布信息。

重要版本发布信息

日期

镜像版本

内置库版本

更新内容

2024.6.21

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4

    Tag:chat-llm-webui:3.0

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm

    Tag:chat-llm-webui:3.0-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade

    Tag: chat-llm-webui:3.0-blade

  • Torch:2.3.0

  • Torchvision:0.18.0

  • Transformers:4.41.2

  • vLLM:0.5.0.post1

  • vllm-flash-attn:2.5.9

  • Blade:0.7.0

  • 支持Rerank模型部署。

  • 支持Embedding、Rerank、LLM多模型同时或单独部署。

  • Transformers后端支持Deepseek-V2、Yi1.5和Qwen2。

  • 更改Qwen1.5的model type为qwen1.5。

  • vLLM后端支持Qwen2。

  • BladeLLM后端支持Llama3和Qwen2。

  • HuggingFace后端支持batch输入。

  • BladeLLM后端支持OpenAI Chat。

  • BladeLLM Metrics访问修正。

  • Transformers后端支持FP8模型部署。

  • Transformers后端支持多量化工具:AWQ、HQQ和Quanto等。

  • vLLM后端支持FP8。

  • vLLM&Blade推理参数支持设置stop words。

  • Transformers后端适配H20显卡。

2024.4.30

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade

  • Torch:2.3.0

  • Torchvision:0.18.0

  • Transformers:4.40.2

  • vllm:0.4.2

  • Blade:0.5.1

  • 支持Embedding模型部署。

  • vLLM后端支持Token Usage返回。

  • 支持Sentence-Transformers模型部署。

  • Transformers后端支持yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3以及gemma-1.1-2/7B。

  • vLLM后端支持yi-9B、qwen2-moe、SeaLLM、llama3以及phi-3。

  • Blade后端支持qwen1.5和SeaLLM。

  • 支持LLM与Embedding多模型部署。

  • Transformers后端发布flash-attn镜像。

  • vLLM后端发布flash-attn镜像。

2024.3.28

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade

  • Torch:2.1.2

  • Torchvision:0.16.2

  • Transformers:4.38.2

  • Vllm:0.3.3

  • Blade:0.4.8

  • 添加blad推理后端:支持单机多卡和量化配置。

  • Transformers后端基于tokenizer chat template模板做推理。

  • HF后端已支持Multi-LoRA推理。

  • Blade支持量化模型部署。

  • Blade自动拆分模型。

  • Transformers后端支持Deepseek和Gemma。

  • vLLM后端支持Deepseek和Gemma。

  • Blade后端支持qwen1.5和yi模型。

  • vLLM和Blade镜像开放/metrics访问。

  • Transformers后端流式返回支持Token统计。

2024.2.22

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm

  • Torch:2.1.2

  • Torchvision:0.16.0

  • Transformers:4.37.2

  • vLLM:0.3.0

  • vLLM扩展参数配置:支持推理时更改vLLM所有推理参数。

  • vLLM支持Multi-LoRA。

  • vLLM支持量化模型部署。

  • vLLM镜像不依赖LangChain演示。

  • Transformers推理后端支持qwen1.5和qwen2模型。

  • vLLM推理后端支持qwen-1.5和qwen-2模型。

2024.1.23

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm

  • Torch:2.1.2

  • Torchvision:0.16.2

  • Transformers:4.37.2

  • vLLM:0.2.6

  • 拆分后端镜像,后端独立编译&发布:新添加BladeLLM后端。

  • 支持标准的OpenAI API。

  • Baichuan等模型支持性能统计指标。

  • 支持yi-6b-chat、yi-34b-chat以及secgpt等模型。

  • openai/v1/chat/completions适配chatglm3 history-format。

  • 异步流式优化。

  • vLLM支持模型与HuggingFace拉齐。

  • 后端调用接口优化。

  • 完善报错日志。

2023.12.6

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1

Tag: chat-llm-webui:2.1

  • Torch:2.0.1

  • Torchvision:0.15.2

  • Transformers:4.33.3

  • vLLM:0.2.0

  • Huggingface后端支持mistral、zephyr、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4和qwen-1.8b-int8模型。

  • vLLM后端支持Qwen和ChatGLM1/2/3模型。

  • Huggingface推理后端支持flash attention。

  • ChatGLM系列模型支持性能统计指标。

  • 添加命令行参数--history-format支持设置角色。

  • LangChain支持演示Qwen模型。

  • 优化fastapi流式访问接口。

2023.9.13

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0

Tag: chat-llm-webui:2.0

  • Torch:2.0.1+cu117

  • Torchvision:0.15.2+cu117

  • Transformers:4.33.3

  • vLLM:0.2.0

  • 支持多后端:vLLM和Huggingface;

  • 支持LangChain演示ChatLLM与Llama2模型

  • 支持Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3以及yi等模型。

  • 添加http和webscoket支持对话流式。

  • 非流式返回结果包含生成Token数。

  • 所有模型支持多轮对话。

  • 支持对话记录导出。

  • 支持System Prompt设置及无模板输入Prompt拼接。

  • 推理参数可配置

  • 支持日志Debug模式:支持推理时间输出

  • vLLM后端单机多卡默认支持TP并行方案。

  • 支持Float32、Float16、Int8以及Int4等精度的模型部署。

相关文档

EAS为ChatLLM提供了场景化部署方式,您只需配置几个参数,即可轻松部署流行的开源LLM大语言模型服务应用。关于部署和调用LLM大语言模型服务的更详细内容介绍,请参见LLM大语言模型部署