在大模型时代,AI算力需求旺盛。因此,PAI特别推出了竞价任务功能,提供了一定数目的算力资源,通过竞价方式提供给客户,来缓解客户算力紧张的情况。相较于普通的公共资源实例(按量付费实例),竞价资源通常在价格上有一定幅度的折扣,帮助您以较低成本获取所需的AI算力,从而降低任务运行所需的资源成本。在使用灵骏智算类型的资源创建DLC任务时,您可以通过选择竞价资源来使用该功能。
使用限制
使用竞价任务功能前,请联系您的商务经理添加白名单。
仅支持在华北6(乌兰察布)地域使用竞价任务功能。
仅灵骏智算资源提供竞价任务功能。
竞价任务有如下功能限制:
不支持转换为包年包月实例。
不支持变更实例规格和带宽。
不支持备案服务。
不支持大客户折扣。
竞价资源特点
竞价资源的市场价格会随供需变化而浮动,相对于按量付费实例能最高节约90%的实例成本。
由于竞价资源为阿里云所有用户共同抢占,不是稳定承诺可用的计算资源,因此使用竞价资源运行DLC任务时,需关注以下注意事项。
资源申请:使用竞价资源的DLC任务提交后,即开始为用户抢占实例资源,当阿里云的竞价资源库存不足时,有可能存在不能立即抢占到实例资源的情况,此时会持续为您申请竞价资源,在此阶段任务会表现为等待状态。
资源回收:竞价资源存在中断回收机制,与市场价格、实例库存以及创建任务时设置的单台实例上限价格、实例使用时长有关。当您申请到竞价资源后,DLC任务即开始创建并运行。当竞价资源出价小于系统平均价格或资源库存不足时,会被回收。此时DLC任务资源可能会在没有任何提示的情况下被回收,任务表现为失败结束。为了确保您的竞价任务能够持续稳定运行,您可以:
在提交竞价任务时打开自动容错(AIMaster)开关。开启开关后,您的任务将自动进入竞价队列,再次参与竞价,从而有机会再次运行起来。详情请参见AIMaster:弹性自动容错引擎。
使用EasyCkpt框架进行PyTorch大模型训练。该训练任务可以进行频繁的Checkpoint保存,支持中断和继续训练。详情请参见EasyCkpt:AI大模型高性能状态保存恢复。
计费规则
价格说明:
PAI竞价任务的出价模式是设定您的最高价(SpotWithPriceLimit)。当DLC任务使用竞价资源时,由于竞价资源的市场价格会随供需变化而浮动,因此使用相同的资源提交多个任务,其固定时间的账单价格可能是相同的。竞价资源支持使用的资源规格及出价范围如下:
竞价资源的价格会随市场供需关系实时变化,最高出价是基于资源规格的原价,从1折到9折的离散选项。竞价资源的实际市场价格和最高出价以控制台显示为准。
资源规格 | 市场价格区间(元/时) | 最高出价区间(元/时) |
ml.gu7ef.8xlarge-gu100 | 35.122~351.216 | 35.122~316.094 |
ml.gu7xf.8xlarge-gu108 | 31.609~316.092 | 31.609~284.483 |
ml.gu8xf.8xlarge-gu108 | 77.267~772.674 | 77.267~695.407 |
查看账单:
任务执行成功后,您可以在次日访问费用中心页面,查看使用竞价资源执行该任务产生的费用明细。类似于PAI-DLC后付费,您可以在阿里云账单系统中查询竞价资源的订单,可见使用竞价资源的费用更低、更经济。查看账单明细的操作步骤,请参见查看账单明细。
应用场景
适用场景:
建议以下场景使用竞价资源来降低成本:
运行时间比较短的计算任务。
Debug状态的计算任务。
能够容忍过程中失败的计算任务。
支持可中断和继续训练的计算任务。例如使用EasyCkpt框架进行PyTorch大模型训练的场景,能频繁进行Checkpoint保存并从Checkpoint中恢复,详情请参见EasyCkpt:AI大模型高性能状态保存恢复。
不适用场景:
对稳定性要求极高的服务,请勿选择竞价资源。
操作步骤
使用灵骏智算资源提交DLC任务时使用竞价资源,具体操作步骤如下:
进入新建任务页面,详情请参见步骤一:进入新建任务页面。
配置以下关键参数,其他参数配置说明,请参见创建训练任务。
参数
描述
资源信息
资源类型
选择灵骏智算。
资源来源
选择竞价资源。
任务资源
在资源规格列,单击选择竞价资源,并设置最高出价。该出价是基于实例的原价,从1折到9折的离散选项,表示参与竞价的上限。当竞价资源的最高出价≥市场价格且库存充足时,可申请到竞价资源。
专有网络配置
专有网络配置
在下拉框中选择已创建好的专有网络、交换机和安全组。
安全组
交换机
容错与诊断
自动容错
在提交竞价任务时,强烈建议您打开自动容错开关。开启AIMaster功能后,竞价任务可以在由于系统平均价格超过客户设定的上限价格导致资源回收后, 自动重新进入竞价中,再次进行尝试竞价。竞价任务可以在系统平均价格低于设定的上限价格时再次运行。关于AIMaster功能更详细的内容介绍,请参见AIMaster:弹性自动容错引擎。
参数配置完成后,单击确定。
任务提交后,DLC即开始申请竞价资源,以创建并运行任务。如果未能申请到竞价资源,此任务将显示为等待状态。