什么是KServe_容器服务 Kubernetes 版 ACK(ACK)-阿里云帮助中心

KServe是一个开源的云原生模型服务平台，旨在简化在Kubernetes上部署和运行机器学习模型的过程，支持多种机器学习框架、具备弹性扩容能力。KServe通过定义简单的YAML文件，提供声明式的API来部署模型，使得配置和管理模型服务变得更加容易。

KServe框架介绍

KServe提供了一系列自定义资源（CRD），用于管理和提供机器学习模型的服务。并针对TensorFlow、XGBoost、scikit-learn、PyTorch和Huggingface Transformer/LLM等模型，提供了易用的高级接口及标准化的数据平面协议。此外，KServe隐藏了自动扩缩（AutoScaling）、网络、健康检查和服务器配置的复杂操作，实现了GPU的自动扩缩、按需扩缩至零（Scale to Zero）功能以及灰度发布能力（Canary Rollouts），简化了AI模型的部署和维护流程。

关于KServe开源项目的更多信息，请参见KServe。

KServe部署模式

KServe部署模式可以分为Raw Deployment、Serverless及ModelMesh三种。不同的部署模式下，KServe的能力也有所不同。

部署模式	说明	相关文档

部署模式	说明	相关文档
Raw Deployment	Raw Deployment是KServe最简单的部署模式，仅依赖Cert Manager及网关。支持弹性扩缩容、Prometheus监控、灰度发布（需依赖具体网关）、GPU自动扩缩容等能力。	部署vLLM推理服务实现推理服务的灰度发布为服务配置弹性扩缩容配置Prometheus监控使用Fluid实现模型加速
Serverless	Serverless部署模型依赖Cert Manager、网关及Knative。支持弹性扩缩容、按需缩容至零、灰度发布、GPU自动扩缩容等能力。	部署Serverless模式的模型推理服务
ModelMesh	ModelMesh部署模式依赖Cert Manager、Knative及ModelMesh（例如ASM）。支持弹性扩缩容、按需缩容至零、灰度发布、GPU自动扩缩容等能力。	无

安装ack-kserve组件

如需在ACK集群中部署和管理ack-kserve组件，请参见安装ack-kserve️。