本文介绍同城多活的常见问题以及解决方案。
假设数据库主备,ECS双可用区部署,是否就是同城多活?
不是。此方案仅做到同城“资源”双活,业务流量存在南北走向流量HTTP,东西走向流量RPC、消息、分布式任务等。资源双活在业务节点故障时,南北走向流量切走,东西走向流量仍旧持续进入,业务无法恢复,因此无法做到业务同城多活。
和EDAS、MSE集群流量同可用区优先的差异和优势?
类别 | MSHA | EDAS、MSE |
---|---|---|
微服务日常场景 | 面向可用区级别,解决RT问题。 | 面向可用区级别,解决RT问题。 |
基本概念 | 逻辑集群概念 | 可用区概念 |
同可用区多个逻辑集群优先 | 支持 | 不支持 |
故障场景RPC切零 | 支持 | 不支持 |
支持的服务 |
|
微服务 |
消息是基于Shutdown机制实现多活么?
不是。因为这样会涉及业务重启恢复,如果每次容灾演练都需要全部业务配合进行机器重启及顺序控制,这样是用户无法接受的。
数据库是两个机房各一个主备,还是主机房一主一备,备机房一备的部署形态?
一主一备。若新增备节点,成本可控下可多备节点。
消息的主备容灾细节点是什么?
Broker容灾策略核心在于数据追平、禁写、主节点切换。
MSHA能给客户业务带来什么价值?
MSHA在 “0-1-5-10”(事前预防-1分钟发现-5分钟决策-10分钟恢复) 里面的 “0”、“5”、“10”提供价值,具体表现如下:
- “0”:基于MSHA隔离逻辑区域能力,业务代码发布、配置变更优先在其中之一的区域进行。生产部分进入小比例流量进行验证,持续一定时间后,若系统有问题则快速切流恢复,避免线上因代码、配置问题导致的大面积故障。
- “5”:基于MSHA流量封闭能力,业务故障时,在业务监控层面看到,A区域业务监控指标下跌,B区域正常。此时业务方可快速决策将A切流至B,避免定位问题及决策的时间开销。
- “10”:基于MSHA自上而下的流量规则管理和集成数据库同步能力,可分钟级完成容灾切换操作,恢复业务。