文档

基于函数计算快速搭建低成本LLM应用

更新时间:
一键部署

LLM(Large Language Model)是指大型语言模型,是一种采用深度学习技术训练的具有大量参数的自然语言处理模型。您可以基于ModelScope模型库和函数计算GPU实例的闲置计费功能低成本快速搭建LLM应用实现智能问答。

使用资格申请

Serverless GPU闲置计费当前为邀测功能,如需体验,请提交公测申请联系我们

操作步骤

本教程使用的LLM模型为ChatGLM3-6B。更多开源LLM,请参见ModelScope官网

前提条件

创建应用

  1. 登录函数计算控制台,在左侧导航栏,单击应用

    • 如果您首次使用函数计算的应用中心,或您的账号下没有创建任何应用,在左侧导航栏,单击应用后,将自动进入创建应用页面。

      image..png

    • 如果您之前使用过应用中心,在左侧导航栏,单击应用,然后在应用页面单击创建应用

      image..png

  2. 创建应用页面,选择通过模板创建应用,然后在应用列表中搜索ModelScope并选择ModelScope模板,光标移至该卡片,然后单击立即创建

    image

  3. 创建应用页面,设置以下配置项,然后单击创建应用

    主要配置项说明如下,其余配置项保持默认值即可。

    配置项

    说明

    示例值

    项目基础配置

    角色名

    默认使用AliyunFCServerlessDevsRole。

    针对当前应用,角色权限可能会不足,此时需要单击前往授权为角色授予所需权限。

    image

    AliyunFCServerlessDevsRole

    模型平台配置

    模型ID

    ModelScope的模型ID。

    ZhipuAI/chatglm3-6b

    模型版本

    ModelScope的模型版本。

    v1.0.2

    资源创建配置

    地域

    选择部署应用的地域。目前支持华东1(杭州)和华东2(上海)地域。

    重要

    如果部署异常,例如AIGC公共镜像拉取耗时长,拉取失败,请切换到其他地域重试。

    华东2(上海)

    模型任务类型

    ModelScope的模型任务类型。

    chat

    Access Token

    ModelScope的访问令牌。ModelScope账号与阿里云账号绑定后,在ModelScope官网首页获取。

    image

    57cc1b0a-08e8-4224-******

    GPU实例类型

    函数实例所使用的卡型。

    fc.gpu.tesla.1

    显存大小

    函数实例的显存大小(MB)。

    16384

    内存大小

    函数实例的内存大小(MB)。

    32768

    重要

    由于本教程使用函数计算的GPU闲置实例,因此GPU实例类型和显存大小必须指定为fc.gpu.tesla.1和16384。

  4. 为应用开启闲置预留模式。

    1. 应用部署完成后,在资源信息区域单击后缀为model-app-func的函数名称跳转至函数详情页。

      image

    2. 在函数详情页,选择配置页签,在左侧导航栏,选择预留实例,然后单击创建预留实例数策略

      image

    3. 创建预留实例数策略页面,版本和别名选择为LATEST预留实例数设置为1,启用闲置模式,然后单击确定

      image

      等待容器实例成功启动后,可以看到当前预留实例数为1,且显示已开启闲置模式字样,表示闲置预留实例已成功启动。

使用LLM应用

  1. 在应用页面,点击域名地址,即可使用LLM应用。

    image

  2. 输入文本信息,然后单击Submit,您可以看到模型的回答结果。

    image.png

说明

函数计算平台会在您调用结束后,自动将GPU实例置为闲置模式,无需您手动操作,并且会在下次调用到来之前,将该实例唤醒,置为活跃模式进行服务。

删除资源

如您暂时不需要使用此应用,请及时删除对应资源。如您需要长期使用此应用,请忽略此步骤。

  1. 返回函数计算控制台概览页面,在左侧导航栏,单击应用

  2. 单击目标应用右侧操作列的删除应用,在弹出的删除应用对话框,勾选我已确定资源删除的风险,依旧要删除上面已选择的资源,然后单击删除应用及所选资源

    image

费用说明

套餐领取

为了方便您体验本文提供的LLM应用,首次开通用户可以领取试用套餐并开通函数计算服务。更多信息,请参见试用额度。试用套餐不支持抵扣磁盘使用量的费用,超出512 MB的磁盘使用量将按量付费。

资源消耗评估

函数计算配置vCPU为2核、内存为16 GB、GPU显存为16 GB、磁盘大小为512 MB。1个闲置预留实例使用1小时,通过多次与LLM进行对话,1小时内累计的活跃函数时间为20分钟。产生的资源计费可参考以下表格内容:

计费项

活跃时间(20分钟)计费

闲置时间(40分钟)计费

vCPU资源

0.00009元/vCPU*秒 * (2 vCPU * 1200秒)=0.216元

0元

内存资源

0.000009元/GB*秒 * (16 GB * 1200秒)=0.1728元

0.000009元/GB*秒 * (16GB * 2400秒)=0.3456元

GPU资源

0.00011元/GB*秒 * (16 GB * 1200秒)=2.112元

0.000009元/GB*秒 * (16GB * 2400秒)=0.3456元

更多关于函数计算的计费信息,请参见计费概述

LLM模型列表

由于当前社区以及多种层出不穷的微调模型,本表格仅列举了当前热度较高的常用LLM基础模型,在其之上的微调模型同样是可以部署至函数计算平台,并开启闲置预留模式。

如果您有任何反馈或疑问,欢迎加入钉钉用户群(钉钉群号:11721331)与函数计算工程师即时沟通。

家族

LLM模型

通义千问

  • Qwen-14B

  • Qwen-14B-Chat

  • Qwen-14B-Chat-Int8

  • Qwen-14B-Chat-Int4

  • Qwen-7B

  • Qwen-7B-Chat

  • Qwen-7B-Chat-Int8

  • Qwen-7B-Chat-Int4

  • Qwen-1.8B

  • Qwen-1.8B-Chat

  • Qwen-1.8B-Chat-Int4

百川智能

  • Baichuan2-13B-Base

  • Baichuan2-13B-Chat

  • Baichuan2-13B-Chat-4bits

  • Baichuan2-7B-Base

  • Baichuan2-7B-Chat

  • Baichuan2-7B-Chat-4bits

  • Baichuan-13B-Chat

  • Baichuan-7B

智谱.AI

  • ChatGLM3-6B

  • ChatGLM3-6B

更多开源LLM模型请参考ModelScope

相关文档

  • 本页导读 (1)
文档反馈