异常管理
及时检测、识别、警告并管理意外的云成本和云使用异常情况,降低云运营中的成本风险。
检测异常
确定用于检测异常支出的工具。
识别并记录告警生成和记载的方式。
识别并记录确定责任方的方式。
设定机制,通过适当的渠道及时向相关方发出告警。
启用异常检测
确定有效检测所需的信息,并反馈给数据摄取环节。
制定有关异常管理的策略。
管理异常
分析检测到的异常情况。
对异常情况进行分类,管理误报,并开展调查。
记录异常情况及其解决方案。
定义
通过异常管理, FinOps 团队能够及时检测、识别、厘清、警告和管理意外的云成本事件,最大限度减少其对业务的影响。
异常管理涉及使用工具或报告来识别意外支出、分发异常告警、并发布异常云使用和云成本的调查和解决报告。
在云FinOps 背景下,“异常”用来描述与正常的历史支出或预期支出不符的支出水平(通常更高)。
异常检测可以识别偏离数据集正常行为的数据点、事件和观察结果。检测工具不仅会检查总体云使用情况,还会检查各个子类别内的云使用情况。为实现准确的异常检测,并且更好地确定评估和解决异常的最佳人选,有效的分摊元数据至关重要。
为了检测出异常支出的具体原因,配备按服务、按账户/项目、按成本分配标签等详细成本信息的异常检测工具至关重要。
异常检测和分析的标准流程对于 FinOps 团队能否在异常情况发生时快速做出响应至关重要。流程中通常会使用基于机器学习的自动化异常检测工具。这些工具通常由云服务供应商和第三方平台提供。
与许多 FinOps 能力一样,异常检测是通过对比当前和过去的云使用情况实现的。因此,即便支出在预期之内,突然激增的云使用或成本仍可能触发异常告警。例如,组织启用了一个新的培训环境,导致某个账户的资源使用量突然大幅增长,而这个账户此前从未出现大额成本。在这类情况下,团队收到异常告警属于正常情况。团队应按程序高效地管理和记录这些告警,避免其他角色不必要的介入。
管理并解决异常情况的过程往往涉及一定程度的调查,完成调查后,组织可以选择调整云环境,也可以调整相关受影响范围的成本预期。组织也可能仅确认异常并记录检测到异常的原因。
成熟度评估
爬行
了解FinOps团队和组织中可能会出现的异常支出。
通过报告手动检查异常支出。
在异常情况发生(收到账单数据后)一周后才做出反应。
使用预算告警而不是异常检测服务。
检测颗粒度较粗(例如,仅限账户或项目级别,而不支持细化至标记或其他逻辑分组),已识别出的异常支出背景信息有限。
异常告警发送给中心团队,或需要手动操作才能查看。
中心团队手动调查意外支出,并在必要时告知相关的责任人解决。
行走
采用工具实现一定程度的自动化检测和报告(通常由云服务供应商、第三方提供或定制开发)。
大多数或所有部门和团队都了解并使用异常检测工具。
能够监控环境内的阈值(支出变化百分比、单项支出金额上限、预测超支警报等)。
成本分配元数据为异常分析提供背景信息,帮助识别异常发生的具体情景。
意外支出自动通知责任团队。
组织中的关键团队设定和使用与异常管理相关的KPI。
能够记录结果并捕捉一些告警异常结果的详细信息。
奔跑
在整个组织中使用成熟的异常检测工具,并将其集成到云成本管理工具集中。
创建自动化程序以检测和告警异常支出,并根据不同的环境和严重程度,提供相应建议或实施解决方案。
一定规模或紧急程度的异常告警可以集成到事件管理或工单系统和流程中。
细粒度、与上下文强相关的异常告警阈值直接与服务组件相关联。
根据服务生命周期迭代更新告警阈值。
依据不同人员、不同责任级别,设定不同的告警和阈值。例如,管理层、FinOps团队、工程团队、财务团队会根据自己的职责和需求,设定不同的阈值,决定何时需要采取具体行动,何时仅需保持关注。
记录每个异常告警的结果和解决方案。
在适当情况下,对异常进行完整的根因分析。
分析过去异常解决方案以改进未来的异常告警。
职能活动
FinOps从业者
明确对异常检测工具的要求,确保该工具能够有效定义、优化、监测云成本,及时识别和警告意外的云支出事件(成本异常情况)。
明确异常检测自动化和异常记录的工具或流程要求,并将其集成到适当的工单或流程管理系统中。
记录并向所有利益相关者传达异常检测机制和阈值。
与利益相关团队合作,确定异常检测阈值和报告/通知频率。
确保异常检测与成本分配元数据有效关联,并在需要额外的元数据时向负责成本分摊能力的人员反馈。
确保异常检测工具能够以适当的粒度和频率实时访问原始支出数据。
生成报告,显示所有或已告警的异常支出。
工程
确保我的团队会查收异常支出告警。
确保我的团队了解正确的流程和行动计划,以响应并解决云成本异常问题。
确保将适当的元数据应用于我负责的资源,以便进行异常检测。
向FinOps团队提供有关既定阈值和检测覆盖范围的反馈。
对监测到的异常进行调查分析,了解其原因和范围,记录误报情况或行动计划。
解决导致异常支出的问题,并记录异常情况的解决方案。
提前通知其他角色,将会有计划内的大规模支出产生,可能触发异常告警(例如,新环境的启动)。
产品
监控并调查我负责领域内检测到并告警的异常支出。
与相关的工程团队协作,协助调查和解决异常情况,并详细记录解决方案。
财务
协助设定触发财务审查的异常百分比阈值,及时进行预实分析。
在云成本预测中预留应急资金,以便在支出趋势超过预先设定的阈值时,能够应对异常支出情况。
管理层
设定异常百分比阈值,以及时触发行动或及早发现潜在问题。
提供与OKR和KPI相关的指导方针和支持策略,并要求工程和产品团队开展异常管理活动。
成功衡量标准和KPI
组织整体或特定范围内,在一段时间中(一周、一个月)出现的异常总数。
能够根据一致的标准识别和判断异常支出、漏报和误报。
一段时间内(一周、一个月)与异常告警相关的成本金额;代表总异常检测范围。
一段时间内(一周、一个月)检测异常的平均时间;记录所使用工具的效率和有效性。
一段时间内(一周、一个月)通知异常负责人的平均时间;记录从检测到异常到相应负责人确认异常所需的时间。
一段时间内(一周、一个月)异常未得到妥善解决的持续时间;异常解决的速度。
调查和解决已识别异常的时间;在许多情况下,调查真实异常的时间是实际浪费的成本。
接受过异常管理相关培训的团队所占百分比,包括了解云可变支出模型如何导致异常支出、如何界定异常、谁对异常负责以及如何响应。
已采取行动的异常数量和避免的支出金额(到下一个结算周期);在收到账单之前,提前识别和解决异常支出问题,从而节省成本金额。通过提前识别和解决异常,从而节省的成本金额。
已识别但没有进一步处理的异常数量以及忽略理由的分类(例如新服务、性能测试、客户高峰、误报)。
跟踪暂不处理(忽略)的告警数量,以此识别可能未遵守规定或策略的团队。
使用各类自动化工具管理的异常所占百分比;记录自动化实施的有效性。
输入和输出
数据摄取能力提供的云成本和使用数据。
异常检测工具(云服务提供商、第三方供应商或自研工具)。
已确定并符合组织报告需求的成本分配元数据。
将云使用分配给责任团队的分摊策略。
向利益相关者团队发送异常支出通知。
成本和使用情况报告数据对利益相关者实时可见。
与异常管理的期望相关的合规与治理。
检测、分析和解决流程以及人员期望的记录文档。
需要报告与分析能力来调查和分析异常支出。
需要工作负载优化来解决由云使用不当导致的异常支出,或关停未使用的资源。