文档

KServe概述

更新时间:

KServe是一个开源的云原生模型服务平台,旨在简化在Kubernetes上部署和运行机器学习模型的过程,支持多种机器学习框架、具备弹性扩容能力。KServe通过定义简单的YAML文件,提供声明式的API来部署模型,使得配置和管理模型服务变得更加容易。

KServe框架介绍

KServe提供了一系列自定义资源(CRD),用于管理和提供机器学习模型的服务。并针对TensorFlow、XGBoost、scikit-learn、PyTorch和Huggingface Transformer/LLM等模型,提供了易用的高级接口及标准化的数据平面协议。此外,KServe隐藏了自动扩缩(AutoScaling)、网络、健康检查和服务器配置的复杂操作,实现了GPU的自动扩缩、按需扩缩至零(Scale to Zero)功能以及灰度发布能力(Canary Rollouts),简化了AI模型的部署和维护流程。

关于KServe开源项目的更多信息,请参见KServe

image

KServe部署模式

KServe部署模式可以分为Raw Deployment、Serverless及ModelMesh三种。不同的部署模式下,KServe的能力也有所不同。

部署模式

说明

相关文档

Raw Deployment

Raw Deployment是KServe最简单的部署模式,仅依赖Cert Manager及网关。支持弹性扩缩容、Prometheus监控、灰度发布(需依赖具体网关)、GPU自动扩缩容等能力。

Serverless

Serverless部署模型依赖Cert Manager、网关及Knative。支持弹性扩缩容、按需缩容至零、灰度发布、GPU自动扩缩容等能力。

部署Serverless模式的模型推理服务

ModelMesh

ModelMesh部署模式依赖Cert Manager、Knative及ModelMesh(例如ASM)。支持弹性扩缩容、按需缩容至零、灰度发布、GPU自动扩缩容等能力。

安装ack-kserve组件

如需在ACK集群中部署和管理ack-kserve组件,请参见安装ack-kserve️