创建TensorRT执行框架的模型服务_云原生应用开发平台(CAP)-阿里云帮助中心

TensorRT执行框架提供了基于NVIDIA Triton Inference Server的推理服务镜像，使用的推理加速框架为TensorRT-LLM。在CAP中创建TensorRT执行框架的模型服务时，CAP兼容的Triton Inference Server的版本为24.06-trtllm-python-py3。

支持的模型列表

TensorRT-LLM不支持每类模型中太旧或者太新的版本。由于版本支持情况动态变化，您可以在tensorrt_llm/examples里面找到不同模型的说明，模型的版本号为v0.10.0，具体版本支持情况请参考说明中的支持矩阵，详情请参见通义千问模型版本支持矩阵。

前提条件

已创建项目，具体操作，请参见管理项目。
已将NVIDIA Triton Inference Server的推理服务镜像转换为TensorRT-LLM engines的格式。转换示例详情请参见构建TensorRT LLM模型。

步骤一：上传模型到OSS Bucket

将原始模型和TensorRT-LLM engines上传到OSS，模型目录结构和示例如下：

${model_root_path}
  /engines
  ...

model_root_path包含从模型社区，比如从ModelScope下载的模型原始代码和模型文件。您需要将转换后的TensorRT-LLM engines文件放到模型根目录下的engines目录。以Qwen2-7B-Instruct模型为例，OSS Bucket中的文件目录如下图所示：

步骤二：创建TensorRT模型服务

登录云原生应用开发平台 CAP控制台，单击目标项目，在项目详情页面，单击左上角的新建服务，选择模型服务类型并单击跳转至创建服务页面。
在配置基础信息区域，在选择模型下方，单击更多模型来源，在弹出的对话框中，模型来源选择对象存储 OSS，选择Bucket 存储桶和填写路径，在执行框架单选框中选择TensorRT，单击确定按钮。
说明
OSS配置项路径需要指定为OSS Bucket下模型的根路径。
设置GPU规格。
说明
GPU显存规格比转换后的engines至少大20%。
配置角色权限。高级配置中的角色名称aliyundevsdefaultrole需要配置访问OSS的AliyunOSSReadOnlyAccess权限策略。如果您没有特殊需求，其他配置项保持默认值即可，然后单击预览&部署。
部署完成后，获取访问地址。
重要
模型服务部署完成，会在函数计算FC中生成一个开启闲置模式预留实例的函数。关于预留模式的概念和计费请参见预留模式和计费概述。