EAS概述

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

模型训练完成后,您可以通过EAS(Elastic Algorithm Service)快速部署为在线推理服务或AI-Web应用。EAS支持异构资源,结合自动扩缩容、一键压测、灰度发布、实时监控等能力,以更低成本保障高并发场景下的服务稳定性与业务连续性。

EAS产品功能

d117f374f4066e24babc9d25c306fbbc.png

EAS功能详细说明

  • 基础设施层:支持异构硬件(CPUGPU),提供AI专属GU机型和抢占型实例,兼顾性能与成本效率。

  • 容器调度层:通过弹性与定时扩缩容、弹性资源池等机制,动态匹配业务负载变化,提升资源利用率。

    • 弹性扩缩容:根据实时负载自动调整实例数量,应对不可预测的流量高峰,避免资源闲置或过载。

    • 定时扩缩容:适用于有规律的业务周期(如早高峰、促销活动),提前设定扩缩策略,精准控制资源投入。

    • 弹性资源池:如果专属资源组内资源已经占满,系统自动将新增实例调度至按量计费的公共资源组,以保障服务的稳定性。

  • 模型部署层:集成发布、压测、监控全流程功能,简化运维操作,提升部署可靠性。

    • 一键压测:支持动态加压并自动探测服务极限,实时查看秒级监控数据与压测报告,快速评估服务能力。

    • 灰度发布:可将多个服务加入同一灰度群组,灵活分配生产与灰度流量比例,安全验证新版本效果。

    • 实时监控:部署后可在控制台查看QPS、响应时长、CPU利用率等关键指标,全面掌握服务运行状态。

    • 流量镜像:将线上流量按比例复制到测试服务,用于验证新服务性能和可靠性,不影响真实用户请求。

  • 推理能力:提供三类推理模式:

    • 实时同步推理:适用于搜索推荐、对话机器人等场景,具备高吞吐、低延迟特性。系统还可以根据业务需求适配合理的部署机型,以实现最佳的运行效果。

    • 近实时异步推理:适用于文图生成、视频处理等耗时较长任务,内置消息队列,支持弹性扩缩,免运维。

计费说明

当您使用EAS部署服务,可能会涉及计算资源、系统盘和专属网关的使用和计费:

  • 计算资源:包括公共资源、专属资源、灵骏智算资源。

  • 系统盘(可选):提供免费额度(公共资源30G,专属资源200G),使用额外系统盘需单独计费。

  • 专属网关(可选):部署默认使用共享网关(免费),如果您有安全隔离、访问控制、自定义域名等需求,可以付费购买专属网关,使用专属网关需手动设置。

关于计费模式,EAS提供以下2种计费模式。

  • 按量付费:根据服务运行时长进行计费(非服务调用量)。适合不确定的、需求波动大的场景。

  • 包年包月:先付费再使用,可以享受更优惠的价格。适合长期稳定的业务。

对于SDWebUIComfyUI,EAS提供了Serverless版本,服务部署完全免费,仅在服务调用时根据实际推理时长计费。

重要

如果使用了弹性公网、 OSS、NAS 等其他阿里云服务,将产生归属于其他云服务的费用。

image

如果您想要体验EAS,可以考虑通过新用户免费试用或节省计划降低使用成本,详情请参见优惠使用

更多请参见模型在线服务(EAS)计费说明

使用流程

步骤1:准备工作

  1. 准备推理资源

    根据模型大小、并发需求和预算,选择合适的EAS资源类型。如果使用EAS专属资源或灵骏智算资源,需先购买再使用。资源选型及购买配置指导请参见EAS部署资源概述

  2. 准备模型及代码文件等

    准备开发训练好的模型、代码处理文件以及其他依赖项,将文件上传至指定云产品存储如OSS。通过服务存储挂载来获取服务部署过程依赖的数据。

步骤2:部署服务

  • 部署工具:支持通过控制台、EASCMD命令行、SDK的方式部署和管理服务。

    • 控制台:提供自定义部署场景化部署方式,操作便捷,适合新手使用。

    • EASCMD命令行:支持服务创建、更新、查看等,适合熟悉EAS部署的算法人员。

    • SDK:适用于大规模统一调度运维。

  • 部署方式:支持镜像方式部署(推荐)和Processor方式部署。区别请参见部署原理

步骤3:调用与压测服务

  • 将模型部署为WebUI应用:通过控制台在浏览器中打开交互式页面,直接体验模型能力。

  • 将模型部署为API服务:

    • 可通过服务在线调试发送HTTP请求,验证推理功能是否正常。

    • 通过API实现同步或异步调用。EAS支持通过共享网关、专属网关、高速直连等多种服务调用方式

  • 使用EAS内置的通用压测工具对部署的服务进行一键压测,来测试EAS服务在压力下的性能表现,从而了解服务进行模型推理的处理能力。更多关于压测服务的操作详情,请参见服务自动压测

步骤4:监控服务与服务扩缩容

  • 服务运行正常后,建议开通服务监控报警,及时掌握资源使用情况、性能指标和潜在异常,确保服务健康运行。

  • 开启水平或定时自动扩缩容功能,实现线上服务计算资源的实时动态管理。详见弹性伸缩

步骤5:异步推理服务

对于文生图、视频处理等耗时较长的请求,建议启用异步推理。通过队列服务接收请求,处理完成后将结果写入输出队列,客户端异步查询结果,避免请求堆积丢失,提高了系统吞吐量。EAS支持根据队列积压程度自动扩缩容,智能调控实例数量。更多介绍请参见异步推理服务

步骤6:服务更新

在推理服务列表中,单击目标服务操作列下的更新,可以更新服务版本。

警告

服务更新过程中将暂时中断运行,可能导致依赖此服务的请求失败,请务必谨慎操作。

服务更新完成后,单击当前版本,查看版本信息或切换服务版本。image

常见问题

如果在服务部署或调用过程中遇到问题,请参考EAS常见问题获取解决方案。

相关文档