为实现一站式算法应用,PAI针对在线推理场景提供了在线预测服务PAI-EAS(Elastic Algorithm Service)。支持将模型服务部署在公共资源组或专属资源组,实现基于异构硬件(CPU和GPU)的模型加载和数据请求的实时响应。
通过PAI-EAS,您可以将模型快速部署为RESTful API,再通过HTTP请求的方式调用该服务。PAI-EAS提供的弹性扩缩容和蓝绿部署等功能,可以支撑您以较低的资源成本获取高并发且稳定的在线算法模型服务。同时,PAI-EAS还提供了资源组管理、版本控制及资源监控等功能,便于将模型服务应用于业务。
地域限制
PAI-EAS支持的地域包括华北2(北京)、华东2(上海)、华东1(杭州)、华北3(张家口)、华南1(深圳)、中国(香港)、新加坡、印度尼西亚(雅加达)、印度(孟买)、美国(硅谷)、美国(弗吉尼亚)及德国(法兰克福)。
基本概念
名词 | 描述 |
---|---|
资源组 | PAI-EAS将集群资源分为不同的资源组进行隔离,创建模型服务时,您可以选择将其部署在默认的公共资源组或自己额外购买的专属资源组。 |
模型服务 | 模型文件和在线预测逻辑部署成的常驻服务。您可以对模型服务进行创建、更新、停止、启动、扩容及缩容操作。 |
模型文件 | 通过离线训练获得的离线模型。基于不同框架会得到不同格式的模型,通常与Processor一起部署,从而获得模型服务。 |
Processor | 包含在线预测逻辑的程序包,通常与模型文件一起部署,从而获得模型服务。针对常用的PMML、TensorFlow(Saved Model)及Caffe模型,PAI-EAS提供了预置的官方Processor。 |
自定义processor | PAI-EAS预置Processor无法满足所有的服务部署需求,您可以通过自定义Processor,实现更灵活地服务部署。PAI-EAS支持通过C++、Java或Python开发自定义Processor。 |
服务实例 | 服务进程。每个服务可以部署多个服务实例以提高能够支持的并发请求数。部署服务时,服务实例会部署到资源组中的机器上,如果资源组中有多台机器资源,PAI-EAS会自动将不同实例部署到不同的机器资源中,从而更好地保障服务高可用性。 |
高速直连 | PAI-EAS提供高速直连的网络访问方式,EAS资源组和您的VPC网络连通后,您可以使用高速直连功能。后续无需通过网关,客户端可直接访问模型服务,可以大幅度提高访问性能、降低访问延时。 |
计费说明
PAI-EAS支持将模型服务部署在公共资源组或专属资源组。公共资源组中,根据每个模型服务占用的资源量计费。专属资源组中,根据资源组管理的服务器资源包年包月或按量计费。PAI-EAS的定价和计费规则请参见PAI-EAS计费说明。
功能介绍
- 购买及配置EAS资源组
PAI-EAS不仅支持将模型部署至系统提供的公共资源组,而且支持您创建并管理自己的专属资源组,并根据业务资源使用量进行资源组机器的扩缩容操作。
- 服务部署PAI-EAS支持通过界面化或命令行方式部署服务和管理服务,具体如下表所示。
操作类型 界面化方式 命令行方式 部署服务 通过控制台部署或PAI-Designer一键部署,详情请参见服务部署:控制台&Designer。 通过PAI-DSW部署或本地客户端(EASCMD)部署,详情请参见服务部署:EASCMD&DSW。 管理服务 您可以在PAI-EAS模型在线服务页面管理模型服务,详情请参见服务部署:控制台&Designer。 包括:- 查看模型调用信息。
- 查看日志、监控及服务部署相关信息。
- 扩容、缩容、启动、停止及删除模型服务。
通过EASCMD方式管理模型服务,详情请参见命令使用说明。 您可以在部署服务时,添加预热文件进行模型预热配置。以此来保障部署好的模型服务进行调用时,能正常返回响应数据,详情请参见模型预热。
您在使用专属资源组部署服务时,也可以配置储存挂载,用来存储服务部署过程依赖的数据,详情请参见服务存储挂载。
- 服务调试与压测
服务部署完成后,您可以通过在线调试功能发送HTTP服务请求,来验证服务是否能正常推理。使用EAS内置的通用压测工具对部属的服务进行一键压测,来测试EAS服务在压力下的性能表现,从而了解服务进行模型推理的处理能力。
- 服务监控与扩缩容
服务运行正常后,您可以开通服务监控报警来监控服务资源的使用情况。也可以开启水平或定时自动扩缩容功能,来实时动态管理线上服务的计算资源。
- 公网地址调用
服务运行正常后,您可以通过服务调用功能,实现模型在线推理。PAI-EAS服务支持公网地址调用、VPC地址调用和VPC高速直连等不同的调用方式,也支持您基于Processor自定义构造服务请求数据。
- 队列服务与异步推理
对于推理耗时相对较长的使用场景需要使用队列服务和异步推理功能。当请求较多时,您可以创建队列服务,将请求存储到队列服务中,请求处理完成后会将结果输出到输出队列,通过异步查询返回结果,避免请求较多未处理完成被丢弃。
相关说明
- 使用公网地址访问已部署的模型服务,需要开通阿里云API网关服务,其计费详情请参见计费概述。
- 使用公网地址访问的服务,必须在API网关中绑定自己的域名(使用HTTPS并用域名访问),否则每天调用服务的次数不能超过1000次。