基本信息
参数 | 描述 |
服务名称 | 根据界面提示,自定义服务名称。 |
所属群组 | 服务分组拥有统一的流量入口,适用于灰度发布、蓝绿部署、异构资源、异步推理等场景。详情请参见服务群组。 |
环境信息
部署方式支持镜像部署和processor部署。
说明
在复杂的模型推理场景中,例如AIGC、视频处理等场景,推理耗时比较长,需要打开异步服务开关,实现异步推理服务,详情请参见部署异步推理服务。
镜像部署支持异步服务和开启Web应用。如果您使用的镜像中集成了WebUI应用的部分,开启Web应用后平台会自动开启web服务器,从而帮助您直接访问前端WebUI页面。
参数 | 描述 |
镜像配置 | 支持以下几种配置方式: 官方镜像:由阿里云PAI产品提供的多种官方镜像。 自定义镜像:选择已创建的自定义镜像。关于如何创建自定义镜像,详情请参见自定义镜像。 镜像地址:支持输入用于部署模型服务的镜像地址,例如registry.cn-shanghai.aliyuncs.com/xxx/image:tag 。您可以使用PAI官方公开镜像地址,也可以使用自定义镜像地址。镜像地址的获取方式,详情请参见自定义镜像。 如果您使用私有仓库中的镜像,则需要单击输入账号密码,输入镜像仓库用户名和镜像仓库密码。
|
模型配置 | 支持通过以下方式配置模型文件。 |
运行命令 | 镜像的启动命令,例如:python /run.py 。 同时您需要输入端口号,即镜像启动后监听的本地HTTP端口。 重要 由于EAS引擎监听固定的8080和9090端口,因此端口需要避开8080和9090端口。 |
更多配置(代码配置 | 环境变量 | 健康检查 | 启用GRPC | 三方库配置)
参数 | 描述 |
代码配置 | 支持使用以下几种进行代码配置。 |
三方库配置 | 支持以下两种方式配置第三方库。 |
环境变量 | 配置变量名和变量值: 变量名:镜像执行时的环境变量名称。 变量值:镜像执行时的环境变量取值。
|
健康检查 | 打开健康检查开关,为服务配置健康检查功能。更多关于该功能的详细介绍及配置方法,请参见健康检查。 |
启用GRPC | 表示是否开启服务网关的GRPC连接,取值如下: |
部署方式选择processor部署时,参数配置如下表所示:
参数 | 描述 |
模型配置 | 您可以通过以下任何一种方式配置模型文件: |
Processor种类 | 支持所有的预置官方Processor和自定义Processor,关于预置官方Processor的更多信息,详情请参见预置Processor。 |
模型类别 | 当Processor种类选择EasyVision(CPU)、EasyVision(GPU)、EasyTransfer(CPU)、EasyTransfer(GPU)、EasyNLP、EasyCV时,支持配置该参数。上述每个Processor种类对应的模型类别不同,请根据业务使用场景选择。 |
Processor语言 | 当Processor种类选择自定义processor时,支持配置。 支持选择cpp、java及python。 |
Processor包 | 当Processor种类选择自定义processor时,支持配置。您可以通过以下任何一种方式配置Processor包: 对象存储(OSS):选择文件所在的OSS路径。 公网下载地址:输入可以公开访问的URL地址。
|
Processor主文件 | 当Processor种类选择自定义processor时,支持配置。自定义Processor包的主文件。 |
更多配置(挂载配置 | 环境变量|健康检查 | 启用GRPC )
参数 | 描述 |
挂载配置 | 支持使用以下几种挂载方式。 |
环境变量 | 配置变量名和变量值: 变量名:镜像执行时的环境变量名称。 变量值:镜像执行时的环境变量取值。
|
健康检查 | 打开健康检查开关,为服务配置健康检查功能。更多关于该功能的详细介绍及配置方法,请参见健康检查。 |
启用GRPC | 表示是否开启服务网关的GRPC连接,取值如下: |
资源信息
在资源信息区域配置以下参数。
参数 | 描述 |
资源类型 | |
GPU共享 | 当资源类型选择EAS资源组时,支持打开GPU共享功能。具体配置方法,请参见GPU共享。 |
实例数 | 建议配置多个服务实例,以避免单点部署带来的风险。 当资源类型选择 EAS资源组时,您需要为每个服务实例配置GPU、CPU和内存(GB)参数。 |
部署资源 | 当资源类型选择公共资源时: 如果您领取了免费资源包,支持在华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、西南1(成都)、华南2(河源)地域,使用试用活动页签的免费机型,详情请参见新用户免费试用。 |
更多配置(弹性资源池 |额外系统盘 | 分布式推理 | 滚动更新 | 共享内存 | 高优资源重调度 | GPU驱动)
参数 | 描述 |
弹性资源池 | 仅资源类型选择EAS资源组时,支持配置该参数。 您可以打开开启弹性资源池开关并参考部署资源进行公共资源配置,为部署在专属资源组中的服务开启弹性资源池能力。 弹性资源池配置完成后,当服务扩容时遇到机器资源不足时,新扩出来的实例会自动启动在已配置的按量付费的公共资源上,并以按量计费的方式来进行计费;在缩容时会优先缩减公共资源组中的服务实例。更多详细内容,请参见弹性资源池。 |
额外系统盘 | 资源类型选择公共资源或者选择EAS资源组且配置弹性资源池时,支持配置该参数。 为EAS服务配置额外系统盘,单位为GB,取值范围为0~2000 GB。EAS免费赠送30 GB系统盘,如果此处配置20 GB,则实际可用的存储空间为:免费的30 GB+购买的20 GB=50 GB 。 额外购买的系统盘按容量和使用时长计费,计费详情请参见模型在线服务(EAS)计费说明。 |
分布式推理 | 每个实例都在多台机器上进行部署,从而解决超大参数量模型无法部署在单台机器上的问题。详情见多机分布式推理。 |
滚动更新 | 更新创建实例数:服务滚动更新过程中,多于指定实例数,最多可以额外创建的实例个数。该参数可以为正整数,表示实例个数;也可以为百分比,例如2%。默认比例为2%。增大该参数可以提高服务更新速度。例如:服务实例个数指定为100,该参数配置为20,则服务更新开始后会立即创建20个新实例。 最大不可用实例数:服务滚动更新过程中,最大不可用的实例个数。该参数可以在服务更新过程中,为新实例释放资源,避免服务因空闲资源不足而更新卡住。目前在专有资源组中,该参数默认为1;在公共资源组中,该参数默认为0。例如:该参数为N,则服务更新开始时会立即停止N个实例。 说明 如果空闲资源充足,可以将该参数配置为0。该参数配置过大可能会影响服务稳定性。因为在服务更新瞬间,可用实例个数会减少,则单实例承载的流量会变大。您需要权衡服务稳定性和资源情况来配置该参数。
|
共享内存 | 配置实例的共享内存,直接对内存进行读写操作,无需数据的复制或传输。单位为GB。 |
高优资源重调度 | 开启高优资源重调度后,EAS会在服务运行的过程中周期性地在高优先级资源上创建探针实例。如果探针实例调度成功,则会以指数增长方式创建更多探针实例,直至调度失败。同时,成功调度的探针实例完成初始化并且进入就绪状态后,会替换低优先级资源上的实例。该功能可以解决以下问题: |
GPU驱动 | 可输入指定GPU的Driver Version,例如:550.127.08。 |
专有网络(可选)
在专有网络区域,配置专有网络(VPC)、交换机和安全组名称参数,为部署在公共资源组中的EAS服务开通VPC高速直连。详情请参见配置网络连通。
网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。
服务功能(可选)
在服务功能区域,支持配置以下参数:
参数 | 描述 |
内存缓存加速 | EAS通过将模型文件缓存到本地目录中,来提高读取数据的速度,减少延时。更多关于该功能的详细介绍及配置方法,请参见内存缓存本地目录。 |
专属网关 | 通过配置专属网关,不仅可以增强访问控制与安全性,还可以提升网络访问服务的效率。如何创建专属网关以及配置访问控制,详情请参见通过专属网关调用。 |
更多配置(LLM智能路由 | 服务响应超时时长 | 优雅退出 | 保存调用记录 | 任务模式 | 配置安全加密环境)
参数 | 描述 |
LLM智能路由 | 打开开关,并选择LLM智能路由。如果没有可选的LLM智能路由,您可以单击新建LLM智能路由进行创建,详情请参见LLM智能路由:提升LLM推理系统整体效率。 LLM智能路由是一种特殊的EAS服务,可以与LLM推理服务绑定。当LLM推理服务有多个后端实例时,LLM智能路由能够根据后端负载进行动态分发,保证后端实例处理的算力和显存尽可能均匀,提升集群资源使用水位。 |
服务响应超时时长 | 服务端为每个请求配置的超时时间,默认为5秒。 |
优雅退出 | |
保存调用记录 | 支持将服务所有的请求和响应记录持久化保存到MaxCompute数据表或日志服务SLS中。打开开关,并选择保存记录方式: |
任务模式 | 打开开关,您可以将推理服务部署成弹性Job服务。更多关于弹性Job服务的内容介绍,请参见弹性Job服务功能介绍。 |
配置安全加密环境 | 通过配置系统信任管理服务,保证服务部署和调用的过程中数据、模型和代码等信息可以安全加密,实现安全可验证的推理服务。 安全加密环境主要针对您挂载的存储文件,请先完成存储文件的挂载再打开该功能。 |
服务配置
在服务配置区域,会显示以上服务配置对应的JSON配置文件内容。
您可以根据需要补充一些在界面不支持配置的配置项,详情请参见模型服务配置全参数说明。
基于JSON配置文件,您可以通过EASCMD客户端部署模型,详情请参见创建服务。