概述

更新时间:

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂度升高,异常风险也随之增加,为了解决局部异常不对整个系统造成影响,所以需要做系统容错。

容错是指系统能够在部分组件出现故障或错误的情况下,依然能够继续正常运行,并提供正确的输出结果。这意味着系统具有自动检测、纠正和恢复错误的能力,以保证系统的可靠性和可用性。系统容错的目标是使系统能够在面对硬件故障、软件错误、通信故障或其他异常情况时,能够继续执行,并且不会导致整个系统崩溃或数据损坏。

分布式系统常按云端部署架构划分为IaaS、PaaS、SaaS,每层又都依赖计算、存储、网络资源进行构建,在并发访问下通过“同步”服务进行资源协作,处理并发,确保多个节点之间的一致性,保障系统能够正确地运行。所以可以从计算资源、存储资源、网络资源进行风险点分析并给出对应的容错策略。