在线服务高可用最佳实践

本文档旨在为您提供在线服务高可用性的最佳实践,以最大限度地减少服务中断,提高系统的稳定性和可靠性。

快速入门指引

在深入了解高可用最佳实践前,建议您优先查阅以下文档,以快速上手并了解云数据库 SelectDB 版的功能特性。

  • (必做)快速入门

    介绍云数据库 SelectDB 版的基础概念、实例购买及使用的完整步骤,以及数据库表设计的关键要点,帮助您迅速上手云数据库SelectDB

  • (可选)数据迁移

    支持将MySQL、PostgreSQLDoris等多种数据源的数据迁移至云数据库SelectDB

  • (可选)性能测试

    支持Star Schema Benchmark、TPC-H BenchmarkTPC-DS Benchmark测试。

  • (可选)解决方案

    可观测性湖仓一体

发布变更规范

  • (必做)提前测试

    新功能上线前,务必在测试实例上充分测试验证。高压力业务上线前,建议补充性能压测,以评估其在生产环境下的表现。

  • (必做)灰度上线

    建议在低峰期发布变更,并采用分批灰度上线方式(例如:10%→50%→100%),每批次间隔10~30分钟进行观察。此外,在第一个业务高峰期进行重点观察 ,因为低峰期可能无法触发潜在问题。

运维建议

  • (必做)业务监控

    云数据库SelectDB提供较为丰富的监控告警能力。建议业务侧从业务使用角度,结合多个关键指标进行综合监控,尤其是平均查询耗时、99th查询耗时、查询成功率、导入数据速度、CPU使用率和内存使用率等。具体操作,请参见设置告警规则

  • 容量管理

    针对高压力业务,应提前进行性能优化和压测,评估相应资源可支撑的请求QPS上限。根据业务发展或在促销活动前,提前评估并扩容。

  • 版本更新

    云数据库SelectDB通过34位小版本持续修复bug,建议及时升级至2位版本对应的最新3位版本。升级时可先在测试环境验证,紧急情况下可联系技术支持回滚。例如,20250206日发布了4.0.4.2版本,此后6个月时间里迭代了12个版本到4.0.6.1版本,及时升级可规避已知问题。

  • 业务隔离

    对于完全独立的业务场景,采用独立的实例。对于使用同一份数据支持不同业务的场景,采用多计算组架构(同一实例下的多个物理计算队列,共享读写实例中的数据)。

操作演练

  • 实例变更

    常见运维操作包括升级、扩容等,应提前演练验证实例变更对业务的影响。云数据库SelectDB变更期间存在连接闪断,需要业务侧配合支持异常重试能力。

  • 故障恢复

    云数据库SelectDB提供多种故障临时恢复方案,例如,计算组故障时快速切换新计算组、实例故障时快速重启实例、计算组停滞时快速重启等。建议业务根据需要,提前演练熟悉方案。

高可用架构建议

  • (可选)服务限流

    云数据库SelectDB支持逻辑任务队列Workload Group,可控制不同类型的请求或业务使用相应的Workload Group,并限制其资源使用上限,从而提供突发场景下的服务限流能力。

  • (可选)多可用区容灾

    云数据库SelectDB已支持可用区故障容灾部署方案,故障情况下支持自动切换,切换恢复耗时在10秒级(RTO)。

  • (可选)数据备份恢复

    对于高度敏感的在线服务场景,可开启每日定期备份,或在重要变更前进行手动备份。严重故障情况下,可利用备份数据快速恢复业务。