多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复,助⼒企业的容灾稳定性建设。
多活,顾名思义就是分布在多个站点同时对外提供服务。与传统的灾备的最主要区别就是多活里的所有站点同时在对外提供服务,不仅解决了容灾本身问题,还提升了业务连续性,并且实现了容量的扩展。
MSHA解决的问题
- 故障快速恢复
秉承先恢复,再定位的原则,MSHA在各种灾难场景下均具备快速恢复业务的能⼒,在数据保护的前提下让业务恢复时间和故障恢复时间解耦合,保障业务连续性。
- 容量异地扩展
业务⾼速发展,受限于单地有限资源,也存在数据库瓶颈等问题。在MSHA⽔平拓展能⼒⽀撑下,业务具备其它机房或者其它地域快速扩建的特性,减少成本浪费。
- 新技术试验田
MSHA本质上是提供了⾃上而下的⼀种流量隔离能⼒,在最小隔离单元内,业务可灵活进⾏⻛险可控的技术演进,例如基础设施升级、新技术验证等,甚至可以驱动在商业上应用。
- 爆炸半径可控
基于单元间隔离能力,故障爆炸半径可控制在一个单元格内。
- 性能快捷优化
MSHA流量在各单元自闭环,可有效降低RT。