应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。
多活容灾
多活容灾MSHA(Multi-Site High Availability),是在阿里巴巴电商业务环境演进出来的多活容灾架构解决方案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复,助力企业的容灾稳定性建设。
工作流程
多活容灾MSHA架构上将业务分为接入层、应用层、数据层三层,应用层又可以细分为微服务调用、消息等多个功能域,每一层都会有相应的多活组件,管控在各层组件的基础上具备全栈的多活管控能力。
使用场景
架构
容灾能力
适用场景
同城多活
RPO:地域级故障不可控;机房级故障为秒~分钟级。
RTO:地域级故障不可控;机房级故障为分钟~十分钟级。
说明具体以主备数据同步延迟的情况而定。
预算有限,不考虑异地容灾。
期望建设周期短(≤2周)。
期望业务代码零改造。
不考虑数据一致性问题。
异地应用双活
RPO:分钟级。
RTO:分钟~十分钟级。
说明具体以主备数据同步延迟的情况而定。
异地双活
RPO:分钟级。
RTO:分钟~十分钟级。
说明具体以主备数据同步延迟的情况而定。
预算充足,选择异地建立多活的数据中心。
接受长建设周期(3~6个月)。
能够选取合适的维度路由流量,做好数据分片。
接受业务流量带标改造,业务代码带标、中间件升级改造。
接受数据最终一致。
故障演练
故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景实现,能够帮助分布式系统提升容错性和可恢复性。
- 流程
故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的流程,覆盖用户从计划到还原的完整演练过程,并通过可视化的方式清晰的呈现给用户。
- 适用场景
故障演练可适用于以下典型场景:
- 衡量微服务的容错能力。
- 验证容器编排配置是否合理。
- 测试PaaS层是否健壮。
- 验证监控告警的时效性。
- 定位与解决问题的应急能力。
更多信息,请参见什么是故障演练。