阿里云云上成本管理解决方案白皮书

更新时间:

云上成本管理背景

企业云支出浪费现象普遍、云上成本管理面临挑战

云支出浪费成为企业用云普遍现象

当云计算为企业 IT 基础设施带来敏捷性和效率提升的同时,企业用云资源配置不合理或配置过度的现象普遍存在。根据Flexera 2022年调查数据,企业用云费用平均被浪费了32%。《中国云使用优化报告(2021)》数据显示,企业上云后云成本不可控制是企业用云面临的最大挑战,且九成以上用云企业有云成本优化的需求。

image

企业云上成本管理面临诸多挑战

根据《中国信通院云计算白皮书(2022年)》所述,“云计算重塑企业 IT 消费模型,基础设施采购方式从原来的集中式变为分布式,成本管理从原来的前置评估变为后置监控,成本类型由原来的固定成本变为可变成本,决策模式从原来的短期决策变为长期运营,成本责任由原来的集中管控变为责任分散。这些变化导致企业云上成本管理面临诸多挑战:一是资源浪费难以识别,有效资源优化手段匮乏。二是云账单数据庞大繁杂,缺乏专业工具支撑。三是混合云加大优化难度,云产品计费模式复杂多变。四是优化流程管理不健全,团队协作效率不佳。”

image

FinOps框架为云上成本管理提供方法论

根据FinOps官网《What is FinOps》的描述,“FinOps 是一种不断发展的云财务管理学科和文化实践,通过帮助工程师、财务、技术和业务团队协作制定数据驱动的支出决策,使组织能够获得最大的业务价值。”

FinOps 是“Finance”和“DevOps”的合成词,强调业务团队与工程师团队之间的沟通和协作。

FinOps通过Inform、Optimize、Operate三个生命周期阶段实现云成本的可视、优化与持续运营,鼓励实践6大FinOps原则,将众多FinOps能力划分为6大领域,最终通过Crawl(爬行)、Walk(行走)、Run(奔跑)3个程度来衡量实践的成熟度。

image

“FinOps”在行业中常见的别名有 “云成本管理(cloud cost management)”、“云成本优化(cloud cost optimization) ”、 “云财务管理(cloud financial management)”等。

云上成本管理整体解决方案

阿里云结合业财一体化实践和FinOps理念,推出“云上成本管理”整体解决方案,配套多种子场景解决方案及丰富的产品工具,助力企业客户增效降本,管好云用好云。

image..png

阿里云“云上成本管理”整体解决方案,包括通用解决方案、多云解决方案、专属解决方案。

  • 通用解决方案,包括覆盖全量云产品的通用FinOps功能组件及垂直的云产品解决方案,产品功能主要呈现在费用与成本与各云产品控制台,为客户提供阿里云场景下的FinOps功能服务,部分能力开放OpenAPI,支持企业与三方服务商的自助集成。

  • 多云解决方案,包括阿里自研SaaS产品“多云成本运营”,及深度合作的三方服务商产品。

  • 专属解决方案,由具备丰富FinOps实践经验的专家提供专属咨询服务、实施服务、培训认证服务。

云上成本管理整体解决方案,提供覆盖FinOps全链路的产品能力,如成本分摊、预算管理、异常检测、成本分析、成本优化等常见能力领域,也支持弹性计算、网络、云原生容器服务等众多垂直云产品的深度成本管理,助力企业客户通过实践FinOps实现增效降本。

云上成本管理实施框架

“云成本管理与优化”不是一蹴而就的项目,是一个涵盖企业上云用云全生命周期,关系到企业内部管理机制的体系化工程,是一个反复迭代和持续运营的过程。阿里云在FinOps核心理念基础上,融合自身实践经验,提出更加细化落地的“云上成本管理实施框架”,供企业客户参考实施。

image

云上成本管理贯穿上云用云全生命周期

从企业上云及用云的历程看,大致可以分为用云计划、用云执行、监控分析、成本优化等阶段,成本管理贯穿各个阶段,每个阶段的关注点各有不同。

用云计划阶段:场景包括企业首次上云、增量上云、存量复购。

  1. 做好组织规划:包括企业上云的组织架构梳理、账号体系规划、权限体系规划、企业权益(如优惠、信控)的规划、资金结算关系的规划。

  2. 做好财务规划:包括预算编制与规划、财务资产规划(如现金、代金券)、成本规划(如成本权责、分摊规则)、对云服务商的计费方式进行了解和选型(如节省计划、抢占式实例、资源包等)。

  3. 做好资源规划:包括标签规划、资源容量规划、资源配额规划。

用云执行阶段:场景包括采购执行、用云管云规则执行(包括财务规则设置、资源配额设置等)、商务履约执行(包括对账、充值、开票等)。在用云执行阶段,从财务管理和资源管理两个视角做好成本管理。

  1. 财务管理视角:要做好资金、账单、发票的统一管理,并借助云服务商提供的企业级财务管理能力,实现跨组织多账号的统一结算管理和财务资产管理,为了后续监控分析的成本可看清,要通过财务单元做好成本分账规则的设置。

  2. 资源管理视角:选择合适的技术选型和资源规格进行采购,可以借助云服务商提供的资源保障和容量预定等能力确保资源的有效获取,并通过配额设置实现企业云资源采购管控。

监控分析阶段:对应FinOps的Inform阶段,主要解决成本分摊与成本可视化问题。

  1. 成本分摊:借助平台能力和前序阶段配置的分摊规则实现成本的有效分摊(包括摊销、分账等),是监控、分析甚至优化的前提。

  2. 成本监控:通过多种监控手段对成本和资源数据进行监控,并有效预警通知给相关人员,监控手段通常分为两类,基于业务规则(比如基于预算、成本金额、资源使用率等人为设定阈值的预警)和基于人工智能算法(比如无需人为设定阈值、由算法智能识别的异常检测等)。

  3. 成本可视化:通过监控预警感知到成本变化时,借助多种可视化工具进行成本分析,找到问题点或优化机会,常见的可视化分析工具包括各类成本或资源报表、预算与实际的对比分析、多维成本统计分析工具等,也可借助成本预测算法观察未来趋势。

成本优化阶段:对应FinOps的Optimize阶段,主要通过计费方式优化、资源使用优化和架构优化来落地执行。

  1. 计费方式优化:云服务商通常提供多种计费方式,通过切换不同的计费方式,可以获取到更低的实际折扣、或提升权益资产的使用效率,从而实现成本节约。常见的如按量付费搭配节省计划,可以通过承诺更长时间的消费,获取更低价格;购买合适的资源包,也可以抵扣按量付费流量,从而节约成本。可以借助平台提供的测算工具,对比已购买和未购买的计费方式,切换为更加合适的计费方式。

  2. 资源使用优化:优化云资源的使用率,是实现成本优化的有效手段。常见的方法有释放闲置资源、降配低负载资源、升配高负载资源、弹性扩缩容等,通常借助资源监控工具发现优化机会,并结合业务特性、性能、成本等综合考虑后谨慎执行。

  3. 架构优化:在保障应用稳定性的前提下,通过架构优化升级能在更大范围内降低整体云服务使用成本。常见架构优化策略有:通过架构全面云原生化组建成本最优的云服务使用模式;通过离在线混部技术提升资源整体利用率降低成本;通过Serverless化架构提升应用研发效率收获良好的成本效益。

持续运营:云上成本管理是一个反复迭代和持续运营的过程,企业应持续循环以上四个阶段,形成长效运作机制,使云上成本可以有效管控、持续优化。

人员、工具和机制是云上成本管理的关键要素

说明

此部分内容引用自云计算开源产业联盟的《云优化治理白皮书:成本优化》。阿里云参与该白皮书编写,引用内容在本文中略有调整。

人员是基础,业务、财务和技术须协同运作

云成本管理团队是企业实施云成本管理的基础。云成本管理不是某一个角色或某一个团队需要做的事情,而是需要多个角色共同参与,打破原有各管一段,各自为战的传统 IT 管理方式,各角色长期协作共同努力以达到成本长期治理的目标。云成本管理团队需要宣传云成本管理意识和文化,推动云成本管理最佳实践,确定企业云成本管理的方向,协调企业各部门开展成本管理工作。比如,可以定期举行成本管理会议, 回顾和复盘成本管理中遇到的一些问题,从而推动持续改进。

企业组建云成本管理团队需要满足以下三个条件:

  • 人员构成须跨职能:云成本管理团队应由企业各个部门如财务部门、IT 部门、运营部门和业务部门等利益相关者共同组成。

  • 知识体系须完备:成本管理团队需要具有多学科方法,具备项目管理、数据科学、财务分析和软件/基础设施开发等能力,可以对照成本优化目标来衡量各部门的执行和交付能力。

  • 管理层须认可与支持:管理层要成为云成本管理理念的倡导者,为云成本管理团队提供支持,确保按组织确定的优先级开展成本管理活动,确保企业在有效利用云资源的同时,持续创造业务价值。

工具是抓手,监控、分析与调优是必备能力

云成本优化工具是企业实施云成本管理与优化的抓手。云成本管理是一个复杂而耗时的过程,需要将各项能力沉淀到工具。一方面,由于云成本的可变性和多云环境的复杂性,云成本优化基于分析结果和优化策略之上并非所有操作都适合人工完成,企业通过工具可以有效提升对云成本的管理及优化水平。另一方面,成本优化往往是以项目方式实施,由项目制驱动转为体系化的日常自助优化尤为重要。因此,需要将成本管理的能力沉淀为工具或平台,构建可度量指标,驱动实际各相关组织自助降本。

机制是保障,成本意识和奖罚机制双轮驱动

云成本管理相应的长效运营机制在云成本管控中起到关键作用,面对云成本特殊的支出模式和账单结构,企业需要更新一套更加合适的云成本管理流程制度确保优化工作能够在企业内部精确、高效运转。云成本管理流程制度包含三个方面:

  • 对企业内部云成本进行权限管控,包含支出采购、 分配修改等。

  • 对企业云资源各采购账号进行体系管理,包含账单核算、托管代付等。

  • 对企业各类资源或成本进行统一的配额和预算管理,包含资源开通、支出审批等。

企业可以通过提高成本意识和建立奖惩制度来落实云成本管理制度。 企业内部云成本日常运维的主要动力和保障来源于云成本管理制度,一是云成本管理团队需要宣传云成本管理意识和文化,推动云成本管理最佳实践,确定企业云成本管理的方向,协调企业各部门开展成本管理工作。二是建立 KPI 奖罚制度,云成本管理作为绩效考核的项目覆盖所有相关部门, 根据实际情况合理设置优化目标,如资源闲置率、成本节省额度等,对各部门资源使用进行统一价值量化,按照周期内优化成果进行适当奖罚措施。

云上成本管理产品工具

阿里云“云上成本管理”解决方案配套提供丰富的产品工具,帮助企业客户在用云全生命周期中实现FinOps云上成本管理。

image

2022年5月19日,由中国信息通信研究院和中国通信标准化协会联合主办的“2022云管和云网大会”发布了《可信云•云成本优化工具能力要求:第1部分 原生工具》标准及首批评测结果。

阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部33个能力指标。

image

云上成本管理工具提供成本分摊、预算管理、成本分析、异常检测、成本优化等多种功能,支持弹性计算、网络、云原生容器服务等众多云产品的成本优化,并将持续丰富和覆盖更多云产品。

说明

完整的产品功能请参见产品地图,本文挑选部分精品功能进行简介。

产品工具介绍(精选)

预算管理

预算管理”功能,帮助您进行事前的云上成本规划与预算编制、事中预算监控与预警通知、事后的预实对比分析。通过预算管理实现云上成本管理闭环,进行过程跟踪实现管理前置化,提高您的云上成本精细化管理水平。

异常检测

异常检测”通过人工智能算法识别费用波动异常,帮助用户及时发现预期外费用。

  1. 您可以自定义异常检测的灵敏程度,系统智能识别费用波动异常,从而实现自动监控、发现和预警预期外异常费用,帮助用户及时洞察费用异常。

  2. 异常检测支持评估反馈,用户的反馈结果会参与训练算法,反馈越多、越准确,有利于提升检测准确率,用户可以通过评估反馈体系,打造贴合业务自身的算法模型。

成本分析

成本分析”功能,可以支持多维度查看资源成本的趋势(最大支持12个月),查看全面的成本组成结构,进行未来成本的预测等,并可将一组筛选后的数据及对应条件保存为报告,便于快捷查看。

预实对比分析

在“预算管理”的“预实分析看板”页面,您可以查看该预算、预测与实际值的可视化对比。

成本预测

在“预算管理”和“成本分析”中,可以查看未来成本预测,用于编制预算或分析未来趋势。

节省计划购买方案优化

节省计划购买方案优化”是根据您的历史消费数据,通过消费预测算法、优化建议算法得出的结果,可以作为购买参考,用于调整节省计划每小时承诺付款,提升节省计划的覆盖率从而节省费用。

网络计费方式优化-CDT-公网

网络计费方式优化”根据您的历史消费数据,对比测算计费方式优化效果。比如可以测算弹性公网IP的流量费用切换到CDT云数据传输后的预估消费金额。

集群成本分析与优化-容器服务ACK

集群成本分析与优化-容器服务ACK”是云原生场景下的优化分析工具,支持集群成本概览、集群应用浪费分析、集群节点池成本分析、集群应用成本分析。

资源使用优化-资源水位分析

通过智能水位分析报告,对特定周期内云资源的运行情况进行汇总分析,从而发现高负载或低负载的资源,进而为您提供资源规划和成本优化的参考依据。

财务单元

将部门、项目、业务线等对应云资源实例产生的费用,用“财务单元”标识,将每个业务的费用区分清楚,对于未标记/不可标记的资源费用或指定费用按照自定义的公摊规则进行重新拆分,并可建立复杂组织架构下的费用层级关系,从而实现经济用云。

摊销成本

摊销成本提供费用分摊能力,将您在云上产生的费用(含预付费和后付费)按照指定的分摊规则分摊至自然月。您可以通过“摊销成本”,快速掌握云上费用分摊情况。

高额消费预警

开启“高额消费预警”后,客户订购的后付费产品日账单超过预警阈值时(统计范围为截止昨日24时的日账单费用),对用户进行短信提醒,每天一个产品一个用户最多提醒一次。

资源包额度预警

通过“资源包额度预警”,用户可对抵扣资源设置额度预警。系统将根据用户设置的额度预警提示用户,以免发生抵扣资源不足的情况。

节省计划使用率覆盖率预警

通过设置“预算管理”中的使用率覆盖率预算预警,当节省计划使用率或覆盖率达到设定阈值时,系统自动通过邮件、短信、站内信等方式通知客户。

云上成本管理策略方法(节选)

对于每个企业,FinOps云上成本管理的落地方案应该因人而异,但策略方法是通用可借鉴的。阿里云结合阿里集团内部实践经验、外部客户支持经验,总结了一些通用策略方法,供参考实施,本文节选部分进行介绍。

预算管理策略

将云的预算管理纳入进来之后,企业的全面预算才算是补齐了最后一块短板,全面预算才有了切实的管理意义。从实践来看,数字化云上预算管理的意义在于:

  • 将各BU的年度预算额度关联存量资源利用率进行考核,并结合技术优化指标,持续提高存量资源利用率,最大化资源效能。

  • 为经营责任制下面向云的业财一体能力打好了基础,通过统一数字化平台,同时满足财务、业务、运维、研发的不同分析需求。

  • 预算不再依赖于人的判断,基于系统人员自运营,来关注云上成本消费,通过数据和算法更准确反映历史情况并提供预测未来的决策参考,从而算清楚企业每笔云上交易花费的成本。

  • 通过“预算-资源-人-实体组织-成本治理”的数字化联动模式,升级企业组织架构,让业务及时感知成本变化。

  • 结合成本和营收,将精细化管理下获取的盈利在财年底释放红利返回给业务BU。

image

云资源由于其复杂性和弹性,以及企业非技术人员对其理解深度尚浅等因素,在做预算时往往无从下手。下图是相对较好落地的一种预算相关各方协作方案:

image

成本问题发现与管控策略

总的来说,云的成本管控主要围绕用量、用法和计费三大要素来展开。

image

但在此之前,首先要能够发现成本问题,所以首先要做的就是成本维度对云资源的监控与巡检。在此基础上,将成本问题提炼出来,变成风险治理项推送给相关账号owner。账号的owner会根据成熟的成本优化方案,按照上述的逻辑从用法、用量和计费三个层面人力介入进行优化实操。事后则会有成本优化治理结果的验证以及相应的成本管理月报呈现出来。做到成本的可观测、可操作、可追踪。

image

上述“任务过程处理”部分,需要凭借一套事先就有一定积累厚度的各云产品成本优化方案,如下:image

而在这些原始方案的基础上,企业结合自己的技术现状,不断去更新和优化。此时再佐以合适的激励制度,可以形成企业成本精细化管理的正反馈循环。

成本优化策略

如之前“成本问题发现与管控”环节所述,在成本优化原始方案的基础上,企业需要结合自己的技术现状,不断去更新和优化。而这个成本优化的飞轮之形成,是需要一定的技术方案和管理方案保障的。

image

首先是,成本优化的结果需要量化体现出来,在此基础上,各员工的工作价值需要可统计和量化。可以借鉴的做法是使用“健康分”的制度或类似的概念。

image

有了“健康分”这样的制度,人、数据、流程就可以有机流动起来。如果数据不流动,所谓的正反馈循环(即飞轮)就是空中楼阁。

仅有健康分制度还是不够的,还需要在企业内部建立与之相应的企业文化,提高全员的精细化管理的意识。对于一家大型企业来说,考核在前,文化在后。因此,我们建议从以下两者入手,来逐步建立切实可行的成本精细化管理的意识:

  • 将健康分与个人的物质激励、绩效考核联动起来。

  • 公司内部发起战役或项目,将部门利益与成本优化联动起来。

  • 周期性地在企业内部做成本优化的方案宣讲,不仅让大家知道why,更让大家知道how。

基于以上洞察,我们提炼出用云、管云的众多最佳实践和技术方案,帮助企业更好的驾驭云,驾驭数据,FinOps不过是一个起点。按照上述逻辑,我们需要将企业的业财能力、数字化采购能力、研发效能、人力资源、Devops等等领域重新按照云的逻辑刷新一遍。而在这几个领域,阿里集团既有自己亲身经历的最佳实践,也有经过思考沉淀的方法论与工具。

架构优化策略

在计费方式和资源维度完成一系列优化工作之后,在保障应用稳定性的前提下,通过云原生化架构升级能在更大范围内降低整体云服务使用成本。常见架构优化策略有:

1. 架构全面云原生化:云原生架构是基于云原生技术的一组架构原则和设计模式的集合,旨在将云应用中的非业务代码部分进行最大化的剥离,从而让云设施接管应用中原有的大量非功能特性(如弹性、韧性、安全、可观测性、灰度等),使业务不再有非功能性业务中断困扰的同时,具备轻量敏捷、高度自动化和资源按需消费等特点。如应用的容器化以及应用微服务化改造后,将释放云原生架构效率红利,获得更高的系统可用性与可扩展能力,从而组建成本最优的云服务使用模式。

3. 有选择的试点混部技术:为提升资源整体利用率,解决资源碎片问题并降低在线和离线作业的使用成本,将不同类型的在线、离线任务调度到相同资源上,通过调度和资源隔离等控制手段保障服务的能力称为在离线或离在线混部,两者区别在于是以在线业务为主还是以离线业务为主的资源进行复用。在实施混部的过程中,对于资源管理员而言需要对资源进行整体管理,洞察各类应用的资源容量、分配量和使用量,提升集群资源利用率,从而达到降低成本的目的。

2. 积极拥抱Serverless:作为面向下一代的应用架构,服务化、模块化、可编排和可组装的Serverless化架构特点将最大限度利用计算、存储、网络等全链路资源,提升整体资源利用率、缩短需求发布周期,极大地提升应用的研发效率,从而收获良好的成本效益。Serverless使用户不用再关心应用在哪里运行,更不用关心需要安装何种OS、如何配置网络以及需要多少计算存储等资源,通过事件驱动的方式获得极致的资源使用效率。

说明

加入钉钉群4175022543获取专家服务。

image

附录:云上成本管理实践案例

某制造业企业云原生化云成本优化实践

企业需求与痛点

作为领先的全球化智能科技公司,T公司的云上业务系统也具有相当的规模,且先后经历了上云、云原生容器化的过程。随着主要业务从传统IT架构迁移上云,T公司也在进行IT企业成本治理的工作。T公司主要的业务场景主要分为三部分:主要生产业务、压测业务、孵化中的新兴业务。在IT企业成本治理视角,不同的业务场景在云原生IT成本治理过程中都面对了不同的挑战:

  • 主要生产业务:

    • 容量规划难。在从传统 IT 架构迁移云原生化后,资源结构发生变化,需要新的容量规划策略。

    • 不同团队、业务应用的资源分布分散,成本难统计、管理,需要按业务单元细粒度拆分成本。

    • 业务流量周期性变化,如何更好得进行成本优化。

    • 多云环境下如何统一进行IT成本治理。

  • 压测业务:

    • 压测多是临时的任务,闲置资源如何进行成本优化。

    • 压测环境较生产环境需要大量的机器,如何有效利用已有资源。

  • 孵化中的新兴业务:

    • 容量规划难,如何进行资源选型与对新业务应用的容量规划。

    • Pod 预算难度,增加高可用(某些时候业务量小的应用在节点调度时会导致业务不可用),在做成本优化的同时会兼顾业务的高可用稳定性。

成本优化措施

成本优化的举措,可分为下述五个步骤:

  1. 全链路压测,容量预估

资源预估是企业基础设施建设的共同难题,也是决定成本规模的先决条件。T公司在上云期间,采用 PTS 全链路压测,高仿真模拟环境全链路压测,确定系统水位和瓶颈,合理预估资源需求。就遇到生产业务在刚上云阶段难预估、新孵化中的业务难进行容量规划等问题。通过对应用分类,预先确定合适的机型选型以及应用属性配置:首先进行机型选型,根据应用的业务选择适合哪种 CPU/内存比例的机型规格,并在上线时进行动态调整。

  1. 混部

T公司存在大量业务的应用有错峰现象,以及压测场景对资源利用有较高的要求。根据业务的流量波峰波谷、资源使用特性,使用不同的QoS服务质量等级策略,如对服务质量要求高的应用选择独占应用属性配置,对服务质量要求不高的应用可与其他业务波峰波谷交错的应用共同混部在同一集群节点中。

  1. 弹性扩缩

T公司大量生产应用会根据业务高峰低谷波动,通过设置弹性策略在业务波峰时扩容应用容器副本,以及根据业务波峰自动扩缩节点,在业务波谷时进行缩容,减少波谷时的资源成本开销。

  1. 闲置资源回收,动态资源交付

T公司有大量业务压测场景,压测作业发生后会产生大量闲置资源, T公司的工程师团队采用动态资源交付的方式,使用阿里云资源按量付费等计费策略,资源即开即用,有效杜绝闲置资源的浪费多租 SaaS 化业务, 按业务单元细粒度拆分成本。T公司的大量业务是采用多租 SaaS化方式部署在同一集群,业务单元间会相互共享资源,这部分成本难统计的问题,T公司的工程师团队首先采用阿里云账号体系来拆分粗粒度的静态资源账单,各个业务单元对应到子账号体系,既方便单独管控,也方便进行静态资源的账单拆分,同时,T公司也参考 ACK 成本分析的集群动态资源账单分析,通过监控、智能推荐等方式调整集群动态资源的配额, 实现资源利用率的提升;通过弹性伸缩、动态资源交付等方式,实现资源成本的降低。降本增效的同时,也会大大提升进行 IT 成本治理工作的效率。

  1. 多云场景下,云平台标准的成本分析被集成能力

T公司的大量业务也会在多云场景上运行,面对多云环境下的业务成本难管理的情况,阿里云提供标准的成本分析被集成能力,T公司的工程师团队使用阿里云平台标准的成本分析统计接口,实现上层业务在多云环境下的成本、资源的统一管控。

成本优化效果

T公司主生产业务基础设施从传统 IT架构到上云、再到云原生改造,在这个云原生化的过程中,T公司的业务量也翻了数倍。单个子业务的高峰期可达到300+核,成本优化率可达15%,在进行了混部、业务高峰低谷的弹性伸缩等优化后,优化效果可达高峰期的30%+的使用率。

某金融公司云成本优化实践

企业需求与痛点

某国内头部基金公司,云主机月持有量 2000+,仅云主机年度支出千万级别,同时拥有阿里云等国内主流云厂商资源,对于多云的资源管理和成本运营一直是其负责的IT运维部门和财务部门共同持续关注的重点问题,该企业在以往的运营过程中,存在如下需求与痛点:

  • 强稳定性诉求。金融行业客户对业务的稳定性有强诉求,任何资源变动必须以业务稳定性为第一考量。

  • 多云管理难,业务线多,关联资源多,每月将云账单分账至业务线维度需要2-3个工作日,消耗大量人力在账单汇集和统筹上。

  • 资源众多,开通灵活,难以厘清是否存在资源闲置、浪费的情况。 在此基础上,多种计费方式组合复杂,人力无法算清最优付费组合策略。

  • 资源管控难,以机器清退为例,下线时缺少业务管控判断,容易出现误删机器的情况。

成本优化措施

围绕“成本-性能-稳定性”动态最优结合阿里云云资管家平台实现全面资源与成本敏捷运营,进行成本优化之路,具体包括资源治理优化和付费模式优化两部分:

  1. 针对闲置、低水位资源的日常管理:系统自动采集资源使用情况。 根据阿里云最佳实践,判断以下条件:

  • 7天所有核汇总的 CPU利用率最大值的 P95 小于 3% 。

  • 过去 3 天内平均 CPU的 P100(所有核的总和)<=2% 。

  • 七天内出站网络利用率小于 2% 。

同时符合三项条件的,会被判断为低利用率资源,通过资源运营中心提供预警与建议决策功能,客户会将部分常见性低利用率和闲置规格设定为自动化工作流处理。

  1. 针对云资源采购付费方式的优化:结合包年包月、SPN、RI 等多种付费模式进行组合优化采购推荐,并且考虑用户资源在时间维度的变化,对客户拥有的资源进行需求分层,识别到当前可能有高风险释放的资源,将这部分资源剔除在计费优化范围外,尽可能保证客户拥有成本节约,降低其超买风险。

同时,采用了需求预测+需求分层来解决客户需求不确定性的问题, 具体步骤如下:

  • 对客户细粒度资源费用进行时序预测,掌握客户未来费用的基本趋势。

  • 根据客户历史资源释放比例、客户资源保有量的变异系数, 根据设定的阈值剔除客户历史开通资源中具有高风险释放的资源。

通过将上述逻辑与算法模型,根据客户过往的消费历史记录通过算法智能推荐给客户多种付费优化结果供客户选择。其中最保守的优化建议预计优化 20%以上成本,最激进的优化建议预计优化 60%以上的成本。

成本优化效果

建立了多云环境下资源运营管理中心,达成以下成果:

  • 在无任何资源入侵的形式下,仅靠付费方式组合优化,完成总体 21%以上的成本优化,单账号最高成本优化比例达到 44%。

  • 协助客户发现闲置、低利用率资源占总资源数5%左右,辅助进行业务决策,提供更广阔的优化空间。

  • 固化分摊逻辑,自动化分摊云账单至业务线维度,帮客户看得更轻松,看得更清楚。提升人效 90%以上,由原2-3工作日,优化至1-2小时。