本文档旨在为您提供在线服务高可用性的最佳实践,以最大限度地减少服务中断,提高系统的稳定性和可靠性。
快速入门指引
在深入了解高可用最佳实践前,建议您优先查阅以下文档,以快速上手并了解云数据库 SelectDB 版的功能特性。
发布变更规范
(必做)提前测试
新功能上线前,务必在测试实例上充分测试验证。高压力业务上线前,建议补充性能压测,以评估其在生产环境下的表现。
(必做)灰度上线
建议在低峰期发布变更,并采用分批灰度上线方式(例如:10%→50%→100%),每批次间隔10~30分钟进行观察。此外,在第一个业务高峰期进行重点观察 ,因为低峰期可能无法触发潜在问题。
运维建议
(必做)业务监控
云数据库SelectDB提供较为丰富的监控告警能力。建议业务侧从业务使用角度,结合多个关键指标进行综合监控,尤其是平均查询耗时、99th查询耗时、查询成功率、导入数据速度、CPU使用率和内存使用率等。具体操作,请参见设置告警规则。
容量管理
针对高压力业务,应提前进行性能优化和压测,评估相应资源可支撑的请求QPS上限。根据业务发展或在促销活动前,提前评估并扩容。
版本更新
云数据库SelectDB通过3到4位小版本持续修复bug,建议及时升级至2位版本对应的最新3位版本。升级时可先在测试环境验证,紧急情况下可联系技术支持回滚。例如,2025年02月06日发布了4.0.4.2版本,此后6个月时间里迭代了12个版本到4.0.6.1版本,及时升级可规避已知问题。
业务隔离
对于完全独立的业务场景,采用独立的实例。对于使用同一份数据支持不同业务的场景,采用多计算组架构(同一实例下的多个物理计算队列,共享读写实例中的数据)。
操作演练
实例变更
常见运维操作包括升级、扩容等,应提前演练验证实例变更对业务的影响。云数据库SelectDB变更期间存在连接闪断,需要业务侧配合支持异常重试能力。
故障恢复
云数据库SelectDB提供多种故障临时恢复方案,例如,计算组故障时快速切换新计算组、实例故障时快速重启实例、计算组停滞时快速重启等。建议业务根据需要,提前演练熟悉方案。
高可用架构建议
(可选)服务限流
云数据库SelectDB支持逻辑任务队列Workload Group,可控制不同类型的请求或业务使用相应的Workload Group,并限制其资源使用上限,从而提供突发场景下的服务限流能力。
(可选)多可用区容灾
云数据库SelectDB已支持可用区故障容灾部署方案,故障情况下支持自动切换,切换恢复耗时在10秒级(RTO)。
(可选)数据备份恢复
对于高度敏感的在线服务场景,可开启每日定期备份,或在重要变更前进行手动备份。严重故障情况下,可利用备份数据快速恢复业务。