EAS模型服务概述

模型训练完成后,您可以通过EAS(Elastic Algorithm Service)快速部署为在线推理服务或AI-Web应用。EAS支持异构资源,结合自动扩缩容、一键压测、灰度发布、实时监控等能力,以更低成本保障高并发场景下的服务稳定性与业务连续性。

EAS产品架构

d117f374f4066e24babc9d25c306fbbc.png

EAS架构分层详细说明

  • 基础设施层:支持异构硬件(CPUGPU)的基础设施,并提供了AI专属的GU机器规格和抢占型实例,以帮助您降低成本并提高效率。

  • 容器调度层:通过自动扩缩容等多种方法,帮助您在业务的波峰波谷中更高效地管理集群资源,实现降本增效的目标。支持以下几种方法:

    • 弹性扩缩容:当业务负载呈现显著的波峰波谷时,通过开启弹性扩缩容功能,系统可自动调整实例数量,实现动态管理线上服务的计算资源,避免资源浪费。

    • 定时扩缩容:在可以预估业务负载的场景中,服务可以定时将实例数自动扩缩容到指定数量,从而避免资源浪费。

    • 弹性资源池:如果专属资源组内资源已经占满,服务会自动将扩容的实例弹到按量计费的公共资源组机器上,以保障服务的稳定性。

  • 模型部署层:通过服务部署发布的多项功能,帮助您实时高效地监控服务状态,并简化服务发布和更新流程,以适配最合理的计算资源。服务部署发布支持的功能如下:

    • 一键压测:支持动态加压,并能自动寻找服务的负载上限。此外,还提供了实时查看压测秒级监控数据和查看报告的功能。

    • 灰度发布:支持将多个服务加入同一个灰度群组,其中一些服务用于生产环境,而另一些服务则用于灰度环境。此外,还支持切换每个服务的流量分配比例,以进行更灵活的灰度测试。

    • 实时监控:服务部署成功后,您可以在服务监控页面查看相关指标,例如QPS、响应时长、CPU利用率等,以了解服务调用及运行情况。

    • 流量镜像:支持将当前服务的流量按照一定比例镜像到目标服务中,同时不影响当前服务的正常运行。这一功能主要用于测试新服务的性能和可靠性。

  • 推理能力:目前EAS支持的推理能力如下:

    • 实时同步推理:适用于个性化搜索、智能对话等场景,具有高吞吐、低延迟的特点,同时不影响线上业务的正常运行。系统还可以根据业务需求适配合理的部署机型,以实现最佳的运行效果。

    • 近实时异步推理:适用于文图生成、视频处理等场景,在推理服务内部集成了消息队列。使得服务能够按需进行弹性扩缩容,且无需进行运维工作。

地域限制

EAS支持的地域包括华北2(北京)、华东2(上海)、华东1(杭州)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、华南2(河源)、华南3(广州)、西南1(成都)、中国(香港)、日本(东京)、新加坡、印度尼西亚(雅加达)、美国(硅谷)、美国(弗吉尼亚)及德国(法兰克福)。

计费说明

请参见模型在线服务(EAS)计费说明

使用流程

步骤1:准备工作

  1. 准备推理资源。

    根据实际情况,选择使用EAS的资源类型。EAS为您提供公共资源、EAS专属资源、灵骏智算资源三种资源类型。如果使用EAS专属资源或灵骏智算资源,您需要先购买再使用。资源选型及购买配置指导请参见EAS部署资源概述

  2. 准备模型、模型前后处理代码文件等内容。

    准备开发训练好的模型、代码处理文件等内容,将文件上传至指定云产品。通过配置服务存储挂载来获取服务部署过程依赖的数据。

步骤2:部署服务

  • 在部署工具维度上:EAS支持通过界面化或命令行方式部署服务和管理服务,不同工具的部署流程和操作要点存在差异。

    操作类型

    界面化方式

    命令行方式

    部署服务

    通过控制台部署

    通过本地客户端(EASCMD)部署

    管理服务

    模型在线服务页面的推理服务页签管理EAS模型在线服务

    包括:

    • 查看模型调用信息。

    • 查看日志、监控及服务部署相关信息。

    • 扩容、缩容、启动、停止及删除模型服务。

    通过EASCMD方式管理模型服务,详情请参见命令使用说明

  • 在部署方式上:EAS支持镜像方式部署(推荐)和Processor方式部署。区别请参见部署原理

    部署类型

    对比介绍

    参考文档

    镜像部署服务(推荐)

    • 可通过镜像保障模型开发训练环境与部署运行环境的一致性。

    • 典型场景已为您预置了很多官方镜像,您可使用官方预置镜像一键部署。

    • 也支持自定义镜像部署,无需进行部署的工程化改造,部署便捷。

    processor部署服务

    • EAS为您提供了常见模型框架的预置Processor,例如PMML、XGBOOST等,通过EAS预置的Processor可以快速启动服务,但可能无法满足特定的业务需求。

    • 您还可以构建自定义Processor,以实现更为灵活的业务逻辑处理。

步骤3:调用与压测服务

  • 将模型部署为WebUI应用:您可以通过控制台在浏览器中打开Web应用页面,交互式地使用已部署的模型推理服务。

  • 将模型部署为API服务:

    • 部署完成后,您可以通过服务在线调试功能发送HTTP服务请求,来验证服务是否能正常推理。

    • 您可以通过服务调用功能,实现模型在线推理和异步推理。EAS服务支持公网地址调用、VPC地址调用和VPC高速直连等多种服务调用方式

  • 使用EAS内置的通用压测工具对部署的服务进行一键压测,来测试EAS服务在压力下的性能表现,从而了解服务进行模型推理的处理能力。更多关于压测服务的操作详情,请参见服务自动压测

步骤4:监控服务与服务扩缩容

  • 服务运行正常后,您可以开通服务监控报警来监控服务资源的使用情况。

  • 也可以开启水平或定时自动扩缩容功能,来实时动态管理线上服务的计算资源。

步骤5:异步推理服务

对于推理耗时相对较长的使用场景需要使用队列服务和异步推理功能。当请求较多时,您可以创建队列服务,将请求存储到队列服务中,请求处理完成后会将结果输出到输出队列,通过异步查询返回结果,避免请求较多未处理完成被丢弃。同时,EAS支持通过多种方式向队列服务发送请求数据,并通过监控队列中积压的数据数量来实现推理服务的自动扩缩容,从而有效控制推理服务实例的数量。更多关于异步推理服务的介绍,请参见异步推理服务

相关文档

  • EAS的更多使用案例,详情请参见EAS使用案例汇总

  • PAI提供了交互式建模(DSW)服务,是为AI开发者量身定制的云端机器学习交互式开发IDE,随时随地开启Notebook快速读取数据、开发算法、训练及部署模型,详情请参见DSW概述

  • PAI提供了可视化建模(Designer)服务,支持大规模分布式的传统机器学习、深度学习、强化学习训练,支持流批一体训练,该子模块封装了上百种机器学习算法,详情请参见Designer概述

  • EAS相关API,详情请参见API概览