基于ModelScope模型库和GPU实例闲置计费功能低成本快速搭建LLM应用

LLM（Large Language Model）是指大型语言模型，是一种采用深度学习技术训练的具有大量参数的自然语言处理模型。您可以基于ModelScope模型库和函数计算GPU实例的闲置计费功能低成本快速搭建LLM应用实现智能问答。

操作步骤

本教程使用的LLM模型为ChatGLM3-6B。更多开源LLM，请参见ModelScope官网。

登录函数计算控制台，在左侧导航栏，单击应用。
- 如果您首次使用函数计算的应用中心，或您的账号下没有创建任何应用，在左侧导航栏，单击应用后，将自动进入创建应用页面。
- 如果您之前使用过应用中心，在左侧导航栏，单击应用，然后在应用页面单击创建应用。
在创建应用页面，选择通过模板创建应用，然后在应用列表中搜索ModelScope并选择ModelScope模板，光标移至该卡片，然后单击立即创建。

在创建应用页面，设置以下配置项，然后单击创建应用。

主要配置项说明如下，其余配置项保持默认值即可。

配置项	说明	示例值
项目基础配置
角色名	默认使用AliyunFCServerlessDevsRole。针对当前应用，角色权限可能会不足，此时需要单击前往授权为角色授予所需权限。	AliyunFCServerlessDevsRole
模型平台配置
模型ID	ModelScope的模型ID。	ZhipuAI/chatglm3-6b
模型版本	ModelScope的模型版本。	v1.0.2
资源创建配置
地域	选择部署应用的地域。目前支持华东1（杭州）和华东2（上海）地域。重要如果部署异常，例如AIGC公共镜像拉取耗时长，拉取失败，请切换到其他地域重试。	华东2（上海）
模型任务类型	ModelScope的模型任务类型。	chat
Access Token	ModelScope的访问令牌。ModelScope账号与阿里云账号绑定后，在ModelScope官网首页获取。	57cc1b0a-08e8-4224-******
GPU实例类型	函数实例所使用的卡型。	fc.gpu.tesla.1
显存大小	函数实例的显存大小（MB）。	16384
内存大小	函数实例的内存大小（MB）。	32768

重要

由于本教程使用函数计算的GPU闲置实例，因此GPU实例类型和显存大小必须指定为fc.gpu.tesla.1和16384。

为应用开启闲置预留模式。
1. 应用部署完成后，在资源信息区域单击后缀为model-app-func的函数名称跳转至函数详情页。
2. 在函数详情页，选择配置页签，在左侧导航栏，选择预留实例，然后单击创建预留实例数策略。
3. 在创建预留实例数策略页面，版本和别名选择为LATEST，预留实例数设置为1，启用闲置模式，然后单击确定。
  等待容器实例成功启动后，可以看到当前预留实例数为1，且显示已开启闲置模式字样，表示闲置预留实例已成功启动。

说明

函数计算平台会在您调用结束后，自动将GPU实例置为闲置模式，无需您手动操作，并且会在下次调用到来之前，将该实例唤醒，置为活跃模式进行服务。

如您暂时不需要使用此应用，请及时删除对应资源。如您需要长期使用此应用，请忽略此步骤。

返回函数计算控制台概览页面，在左侧导航栏，单击应用。
单击目标应用右侧操作列的删除应用，在弹出的删除应用对话框，勾选我已确定资源删除的风险，依旧要删除上面已选择的资源，然后单击删除应用及所选资源。

由于当前社区以及多种层出不穷的微调模型，本表格仅列举了当前热度较高的常用LLM基础模型，在其之上的微调模型同样是可以部署至函数计算平台，并开启闲置预留模式。

如果您有任何反馈或疑问，欢迎加入钉钉用户群（钉钉群号：64970014484）与函数计算工程师即时沟通。

家族	LLM模型
通义千问	Qwen-14B Qwen-14B-Chat Qwen-14B-Chat-Int8 Qwen-14B-Chat-Int4
	Qwen-7B Qwen-7B-Chat Qwen-7B-Chat-Int8 Qwen-7B-Chat-Int4
	Qwen-1.8B Qwen-1.8B-Chat Qwen-1.8B-Chat-Int4
百川智能	Baichuan2-13B-Base Baichuan2-13B-Chat Baichuan2-13B-Chat-4bits
	Baichuan2-7B-Base Baichuan2-7B-Chat Baichuan2-7B-Chat-4bits
	Baichuan-13B-Chat
	Baichuan-7B
智谱.AI	ChatGLM3-6B
智谱.AI	ChatGLM3-6B
更多开源LLM模型请参考ModelScope。