云消息队列 RocketMQ 版支持故障演练功能,能够模拟可用区级别的容灾过程,帮助您提升服务的高可用性和稳定性。
背景信息
可用区(AZ)故障可能导致部署在该区域的服务实例不可用,从而引发局部乃至全局服务中断或者不可用等问题。云消息队列 RocketMQ 版支持多可用区部署,并提供故障演练功能。通过选择云消息队列 RocketMQ 版实例其中一个可用区进行服务的停止与恢复,模拟可用区故障,主动识别服务系统的脆弱环节,从而提前修复相关问题,实现防患于未然,确保在真实故障发生时,服务能够正常稳定运行。
使用限制
仅云消息队列 RocketMQ 版5.x系列铂金版支持。
注意事项
在故障演练过程中可能会出现以下几种情况:
客户端连接中断,并进行重连。
堆积消息的投递会延迟。
服务恢复后出现消息重复的情况。
顺序Topic中的消息可能会出现短暂乱序的情况。
请确保集群的容量充足,以避免在可用区节点服务停止后,剩余容量无法满足业务需求的问题。
当实例已创建演练任务且演练尚未结束时,该实例的升降配和编辑功能将被禁用。
操作流程
操作步骤
步骤一:创建演练任务
登录云消息队列 RocketMQ 版控制台,在顶部菜单栏选择地域,如华东1(杭州)。
在左侧导航栏选择
。在故障演练页面,单击创建任务。
在创建任务面板,配置以下参数,然后单击确定。
任务名称:输入演练任务名称。
实例:选择需要演练的实例。
步骤二:停止服务
在故障演练页面,单击目标任务名称。
在故障演练详情页面,选择一个可用区,然后单击停止服务。
步骤三:验证应用服务
验证应用服务的可用性,识别问题并进行修复。
步骤四:恢复服务
在故障演练页面,单击目标任务名称。
在故障演练详情页面,单击恢复服务。
步骤五:结束演练
在故障演练页面,单击目标任务名称。
在故障演练详情页面,单击结束演练。
该文章对您有帮助吗?