多集群联邦发布容灾

本文介绍 LHC 多集群联邦发布容灾相关信息,包括基本概念、灾难感知等。

背景信息

当站点因为不可抗力因素或者设备故障导致应用在短时间内无法恢复时,LHC 可提供多集群联邦发布容灾保护。当站点故障时,通过简单的配置,即可在容灾站点迅速恢复业务。

容灾是一个范畴比较广泛的概念。广义上,容灾是一个系统工程,包括所有与业务连续性相关的内容。狭义的容灾是指建立两套或多套功能相同的 IT 系统,互相之间可以进行状态监视和功能切换,当主要站点因意外停止工作时,整个应用系统可以利用辅助站点快速恢复,并继续工作。

容灾的主要目的是当自然或人为的原因导致生产系统发生灾难时,能够尽可能地保证业务的连续性。

机房灾难感知

为实现容灾场景下 LHC 多集群的正常发布,可通过以下方式来判断机房灾难。

  • 集群状态:运维侧视角下,机房灾难的直接体现就是集群不可用。

  • 部署单元状态:应用侧视角下,机房灾难最终会体现为部署单元(Cell)不可用,导致用户通过发布单发布应用服务时出现不符合预期的发布。

1

机房灾难下的多集群联邦发布

对于应用发布而言,容灾场景下存在多种可选项。在发布单执行前,用户可通过仅指定可用的 Cell 执行发布。

相关操作请参见:创建发布单