故障演练

云消息队列 RocketMQ 版支持故障演练功能,能够模拟可用区级别的容灾过程,帮助您提升服务的高可用性和稳定性。

背景信息

可用区(AZ)故障可能导致部署在该区域的服务实例不可用,从而引发局部乃至全局服务中断或者不可用等问题。云消息队列 RocketMQ 版支持多可用区部署,并提供故障演练功能。通过选择云消息队列 RocketMQ 版实例其中一个可用区进行服务的停止与恢复,模拟可用区故障,主动识别服务系统的脆弱环节,从而提前修复相关问题,实现防患于未然,确保在真实故障发生时,服务能够正常稳定运行。

使用限制

云消息队列 RocketMQ 版5.x系列铂金版支持。

注意事项

  • 在故障演练过程中可能会出现以下几种情况:

    • 客户端连接中断,并进行重连。

    • 堆积消息的投递会延迟。

    • 服务恢复后出现消息重复的情况。

    • 顺序Topic中的消息可能会出现短暂乱序的情况。

  • 请确保集群的容量充足,以避免在可用区节点服务停止后,剩余容量无法满足业务需求的问题。

  • 当实例已创建演练任务且演练尚未结束时,该实例的升降配和编辑功能将被禁用。

操作流程

image

操作步骤

步骤一:创建演练任务

  1. 登录云消息队列 RocketMQ 版控制台,在顶部菜单栏选择地域,如华东1(杭州)

  2. 在左侧导航栏选择RocketMQ Copilot > 故障演练

  3. 故障演练页面,单击创建任务

  4. 创建任务面板,配置以下参数,然后单击确定

    • 任务名称:输入演练任务名称。

    • 实例:选择需要演练的实例。

步骤二:停止服务

  1. 故障演练页面,单击目标任务名称。

  2. 故障演练详情页面,选择一个可用区,然后单击停止服务

步骤三:验证应用服务

验证应用服务的可用性,识别问题并进行修复。

步骤四:恢复服务

  1. 故障演练页面,单击目标任务名称。

  2. 故障演练详情页面,单击恢复服务

步骤五:结束演练

  1. 故障演练页面,单击目标任务名称。

  2. 故障演练详情页面,单击结束演练