GTM如何实现同城容灾

概述

方案介绍

同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。

本文将以同城双活的灾备架构为读者讲解同城容灾的部署方法。同城双活容灾架构,是指在同城建立两个可独立承担关键系统运行的数据中心,双中心具备基本等同的业务处理能力并通过高速链路实时同步数据,日常情况下可同时分担业务及管理系统的运行,并可切换运行;灾难情况下可在基本不丢失数据的情况下进行灾备应急切换,保持业务连续运行。多数企业为了兼顾成本与高可用性问题,会优先选择同城双活的部署方式。

目标读者

企业网络部、业务运维部工作人员。

适用场景

适用于应用服务部署是多机房、单地域接入的容灾场景。

相关概念

名词

概念

GTM

全局流量管理(Global Traffic Manager),简称GTM,支持智能解析、健康检查、故障隔离、故障切换,可帮助企业快速构建同城双中心、两地三中心的容灾架构。

智能解析

是指根据用户请求源地址(运营商、地域等),解析就近的应用服务器IP地址,实现就近服务。

健康检查

指对服务器提供3-7层检查,可及时发现异常应用。

主备地址池

支持主备地址池,配置不同数据中心服务地址,实现数据中心级别的故障隔离和故障切换。

方案架构

方案架构图

同城容灾

方案优势

  • 全局流量管理(GTM)构建同城容灾架构,具有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点。

  • 同城双活,如果断了一个数据中心,通过全局流量管理(GTM)其业务可以迅速切换到另外一个正在运行的数据中心,可保障企业从容应对单机房故障。

  • 业务双中心,双在线,通过全局流量管理灵活调度各中心流量,支持业务AB发布,灰度发布。

方案实施

前提条件

  • 创建GTM实例,立即购买

    说明

    旗舰版发现故障和切换时间会更短,约1分钟左右;标准版约3分钟左右。如有高可用诉求的用户建议选择旗舰版。

  • 准备资源:华北2(北京)可用区A 192.0.2.0、华北2(北京)可用区B 192.0.2.1

操作指南

  1. 云解析DNS产品控制台,菜单选择全局流量管理,在全局流量管理实例列表的操作区域点击配置

    image..png
  2. 基本配置页签下,点击修改,按照提示与自身需求进行配置,其中全局TTL建议设置为10分钟。

    image..png
  3. 地址池配置页签下,点击新增地址池,根据提示进行配置。首先创建2个地址池,分别是「业务中心01」地址池,配置IP地址「192.0.2.0」;「业务中心02」地址池,配置IP地址「192.0.2.1」。最后在地址池列表点开“+”添加健康检查,根据提示和业务需求自定义健康检查参数。

    image..png
  4. 基本配置页签下,选择基于地理位置的访问策略类型,点击配置,点击新增访问策略按钮。创建1个全局访问策略,解析请求流量选择全局主地址池集合选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略选择返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。

    访问策略
  5. 线上流量接入:在基本配置页签下,复制CNAME接入域名,然后到域名解析页面,将业务域名通过CNAME记录的方式,指向GTM提供的CNAME接入域名。

    image..pngimage..png

方案验证

线上流量接入后效果

通过dig 域名可看到解析结果返回2个地址,符合预期。效果验证

故障隔离效果

  1. 将「业务中心01」地址池192.0.2.0断网或停止。

  2. GTM访问策略中可查看到当前可用地址数量从「2」变为「1」。

当前可用地址数量
  1. 通过命令dig域名方式验证,解析结果只返回了「业务中心02」的IP地址192.0.2.1,说明故障ip192.0.2.0 地址已摘除。

故障隔离

常见问题

  1. 故障切换时间是多少? 在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。

  2. DNS未使用云解析DNS,也可以使用全局流量管理服务吗? 可以,全局流量管理会提供一个CNAME调度域名,到您的DNS域名管理平台做一个CNAME记录即可。