工作负载优化
分析、优化云资源,使云资源匹配使用模式,同时确保工作负载高效、可持续运行,实现良好的云服务投资回报。
制定工作负载优化策略
评估工作负载,寻找优化空间。
为工作负载设定价值与风险阈值。
设定目标优化阈值。
建立指导方针,平衡工作负载优化与其他优化项。
权衡云业务的成本、质量、性能和环境影响并慎重决策。
管理工作负载优化
为各工作负载提出优化建议。
重点关注生产和预发环境优化。
与工程团队拉通优化建议,商定优化时间表。
关联角色(如可持续发展、ITAM人员等)与核心角色对齐优化目标。
发掘真正提升业务价值的优化空间
使用现代化的托管服务。
结合工程时间和优先级,比较优化收益。
定义
工作负载优化旨在确保正确选择、合理扩缩容、按需运行、适当配置和高效利用云资源,以最低的成本和环境影响满足所有功能性和非功能性需求。此工作主要由工程团队负责,依据工程团队与FinOps、产品和其他角色协作制定的指导方针和策略进行。
工程师应尽力确保消耗的各资源类别的云成本都能产出足够的业务价值。由于云系统是迭代构建的,因此通常需要持续监控资源利用率,确保满足性能、可用性和其他质量指标,调整或修改配置过高或过低的资源。即使是拥有卓越架构的系统,也要进行一定的优化。
优化云成本领域的所有能力都存在密切的联系。这些能力以不同的方式提升云的业务价值,包括使用基于订阅承诺的折扣、重新设计云上架构、使用或停止使用许可证和SaaS服务、提升云可持续性以及优化构成系统的各个工作负载的利用率和效率。而在所有这些能力中,工作负载优化可能是实践最广泛、可能性最多的能力。
在FinOps实践早期阶段,FinOps团队在寻找工作负载优化空间方面发挥重要作用,随着实践逐渐成熟,工程团队将自行承担云资源使用的主要责任,不断优化工作负载,甚至最好在构建系统时就尽可能将优化做到极致。但无论系统在构建时多么完善和高效,云端服务都会不断增添内容、变得更加现代化,组织必须持续努力以跟上变化的步伐,保持最佳系统性能和利用率。工程团队负责人应承担起责任,建立优化周期、强调持续合理优化的必要性。
FinOps团队支持工作负载优化的关键工作是制定工作负载优化策略。此策略通过明确资源优化的优先级、设定触发行动的阈值,避免组织在微小的改进上浪费时间,确定组织的目标KPI,以及设立指导方针指导各优化项的权衡。同领域的其他能力为该策略提供重要的输入,比如向工程团队指出组织支持或计划停止使用哪些许可软件、在何时应优先选择重新架构而非资源优化、如何在资源优化与费率优化之间取舍,以及如何将可持续性和碳排放影响纳入使用优化的决策过程中。如前所述,该策略还体现管理层对工程团队平衡优化和新功能开发的频率和程度的期望。
各工程团队将与FinOps、产品团队和管理层协作,运用理解云成本领域的能力来检查其负责的工作负载。为了确认利用率、寻找扩缩容或工作负载管理空间,除了云使用、云成本和碳排放影响数据之外,工程团队还需访问利用率、性能和可观测性数据。工程团队根据系统的重要性、可用于优化的时间、应用成熟度或工作负载是否处于生产环境等因素,集中精力寻找各种方式进行优化。
有多种方法可以优化云工作负载,主要包括:
减少浪费——移除现存但不再使用的资源,如闲置存储卷、冗余备份或快照,未投入使用的沙盒资源等。如果这些资源持续存在,可以考虑自动化资源创建或清理的流程,以减少潜在的资源浪费、节省管理时间。
管理工作负载——理想情况下,只在工作负载实际需要时使用资源。合理安排资源使用时间,在不需要时将资源共享给其他工作负载,可以减少成本和对环境的影响。特别是在预发阶段,应尽可能设置资源启动和停止时间。
扩缩容——根据工作负载每天或每月的需求波动,部分资源可以按需进行扩容或缩容。可以通过观察成本高、影响大的工作负载的周期使用模式找出适合扩缩容的地方。
精简资源——对于无法进行弹性伸缩但利用率始终偏低的资源,可以考虑缩减其规模或者降低服务等级,以更好地符合实际需求。
调整时间——对于不受时间限制的流程,可以利用计算成本更低的资源(如可中断竞价实例)或者在碳排放强度较低的电力可用时段运行。
调整地域——对于不受地域限制的流程,可以在成本效益较高或者碳排放较少的地区运行,同时仍需满足合规性和性能要求。
检查工作负载是否存在长周期性的高利用率时段,如月末或季度性忙时等。关注对保修或软件性能有特定资源要求的工作负载。调整资源规模一般都涉及资源重建,需要中断系统,因此需要与工程团队做好协调。
根据情况不同,有时需要为降低利用率额外支出费用创建新资源,有时则需要降低性能、减少碳排放来提高成本效益。
对于存储资源,有必要寻找到存储数据中的低效节点,通过移除、精简低效节点来节省资金。应该对不同数据集采用不同的处理办法。比如,如果具有高可压缩性的数据未被压缩就是低效节点,而加密数据的提效潜力较低或为零。不常被访问的数据如果存储在高成本、高性能的存储类或存储层级里,同样也会造成低效率。同理,还可对存储数据进行各种维护工作,包括优化数据放置、实施数据压缩、采用分层存储等,从而提升存储效率。通过减少非必要的数据复制、实施节能的存储基础设施,组织可以最大限度减少碳足迹。
现代化——除了(通过云架构优化能力)重新设计应用程序的云上架构外,云服务提供商经常推出更现代化的资源,比如新一代计算规格族、无服务器版本或不同的服务等级(性能更高或更低,成本更高或更低)。这些新资源的出现都应触发组织考量是否有必要对现有产品和服务进行现代化改造。一般来说,新兴资源每单位成本的性能都会更高。虽然不是每次服务更新换代组织都需要立马采取行动,但工程团队和FinOps团队至少应该充分了解所有新产品和新服务性能。
在所有工作负载优化决策中,都应综合考虑资源利用率、效率、可持续性和成本这些因素。优化工作负载需要评估相关变化可节约的资金,以及实施这些变化的成本,并在过程中可能需要转换资源使用方式,确保技术可行性并发掘真正有潜力的提升空间。
从识别优化是否具有技术可行性,并与相关的工程或其他人员拉通推进变更,到识别真正有价值的优化空间,都是工作负载优化中需要重点关注的方面。
成熟度评估
爬行
制定基本的工作负载优化策略,识别优化优先级最高的资源、基本优先级排序,制定基本的成本和碳排放优化KPI目标。
使用一个或多个数据源,如云计费数据、基础设施监控工具、数据效率工具、云服务提供商洞察工具来深入了解资源利用率和效率。
设定基本效率指标,即业务相关、可用于衡量资源效率的指标。
主要关注点可能是计算资源和相关服务成本优化。
行走
制定更全面的优化策略,针对不同资源类型区分优化方法,为工程团队提供优化周期和优先级指导。
了解特定优化活动财务、运营或云可持续性预期价值。
能够估算优化服务所需成本和工作量以及运营影响。(例如,“进行此变更将花费50个工时,每小时费率为 X”,或“使用数据效率平台来发掘数据的节约成本潜力的花费为每1GB数据0.01元”)
能够衡量执行优化所需人工、云可持续性和运营影响的成本和工作量。(例如,“进行此变更将花费50个人工时,每小时费用为xyz”)
简单记录和跟踪优化建议,以便相关人员能够直观看到优化的影响。
对简单优化流程进行简单的自动化。
奔跑
制定全面的优化策略,提供各种服务的相关指导、减少浪费的不同方法,以及针对工程、可持续性和产品角色的优化预期,明确具体的KPI目标。
访问详细的成本和利用率数据以驱动自动化流程。
自动提醒或清理闲置资源,精简资源,变更部署资源的架构及规模。
自动分类和处理不需要进一步追踪或利用的资源通知。
跟踪识别到的优化机会和优化建议,分析优化影响以指导未来策略。
职能活动
FinOps从业者
为组织建立和管理工作负载优化策略。
促进并支持与工程、可持续发展和其他相关角色间的协作,以发现工作负载优化空间。
支持工程团队识别优化空间的报告、数据和分析需求,以识别优化机会。
对比工作负载优化和其他优化项(尤其是核心FinOps团队负责的费率优化),协助决策可为组织提供最大价值的优化项。
工程
在优化策略、KPI及预测结果指导下,构建、购买服务。
运用资源弹性、合理配置、利用率指标及工作负载管理最佳实践,使资源匹配工作负载需求。
构建、购买自动化工具以输出衡量利用率和效率所需的度量和指标。
定期审查资源的利用率和效率,识别提升空间。
财务
抓住每个提高利用率和效率的机会,与各团队合作审查不同方案的可行性。
帮助创建报告,跟踪和报告利用率过低和低效节点对业务价值的影响。
与工程部门合作制定预算和效率目标。
采购
在与云服务提供商谈判时,力求了解规划中的工作负载优化对云成本的长远影响。
产品
明确服务 KPI,以便工程团队能够在设定的范围内设计、购买高效的服务。
定期(如每日、每周、每月等)提供需求预测和需求模式概况信息。
基于组织的目标设定业务目标(例如,加快发布速度、有效存储率降低超过20%、可用性达到99.99%)。
与工程团队、FinOps团队和财务人员合作在我所负责领域满足优化策略的需求。
管理层
传达业务价值创造愿景和策略,为优化策略提供指导。
高层为组织达成优化KPI提供支持,在FinOps提效计划中建立信誉。
结合预期的业务活动,推动对工作负载优化项的优先级排序和决策,以及其他类型的优化项(例如成本和可持续性优化)。
成功衡量标准和KPI
对至少50%的存储数据执行数据提效工作(即净节省覆盖率大于50%)。
存储资源的每GB每月费率需低于阿里云OSS标准存储基线价格至少30%。
建立KPI库。
建立闲置资源管理库。
运用“单位经济效益”能力来设计KPI,用于评估每单位工作量的工作负载性能。可以使用计算资源或吞吐量指标(如vCPU-小时)、货币成本,或每客户、每交易及其他类似单位的碳排放(CO2e)估算值等指标进行衡量。
输入和输出
输入
通过报告与分析能力了解工作负载在哪里利用不足、性能不佳、资源闲置或需要调整。
可能通过数据摄取能力引入性能、利用率或其他可观测性数据,以有效地衡量单个资源的性能。
财务和产品人员提供与费率目标和阈值相关的组织目标。
财务批准的采购、采购周期、采购金额、预付款参数。
第三方碳排放因子、区域电网碳强度数据和区域水强度数据等额外数据,可能对云可持续发展决策有帮助。
输出
为采购人员提供未来计划用量、历史资源用量和费率可优化用量信息。
证明优化机会合理性的文档(小型商业案例),说明通过关闭工作负载、调整资源配置、替换为其他资源、选择或更改地域、以及转向更具碳效益或成本效益的选项来调整资源使用的必要性。
如果折扣信息对工程和产品团队可见,则向这些团队提供指导,说明所覆盖资源的预期费率。
包括有效率在内的单位经济效益指标评估结果。