IDC数据库上云异地容灾实践指南

吕工
  • 收获赞:23
  • 擅长领域:这个同学很专业,但是有点神秘哟~

本文以某上市制造业为例,介绍客户IDC机房数据库(MySQL、Oracle)上云实现异地容灾需求。实践指南可作为IDC网络复杂且使用云上多VPC下网络转发参考,解决了IDC到公共云多管控节点网络转发问题,同时可适用于线下NAS等异地灾备场景。

灾备的必要性

随着发生的系统故障,防不胜防的勒索病毒,人为或者误操作导致的运维事故,还有不可预知的自然灾害,数据的丢失损坏都会对我们的业务造成难以估量的损失。本地灾备系统成本高,上线慢、运维难度大;公共云脚本自建备份系统缺乏统一管理,易出错,学习成本高。

例如,2020年,某公司核心员工私自删除数据库,直接导致公司SaaS业务突然崩溃,基于该公司平台的商家小程序都处于宕机状态,300万家商户生意基本停摆,生意快做不下去了。同时,该公司自身也蒙受巨大损失,短短几天公司市值就蒸发超过十亿港元。

例如,2020年,某核心工厂服务器遭到勒索病毒攻击,30TB数据被加密,要求支付2.3亿人民币的赎金。

客户需求

客户数据中心在A市,承载了业务数据主体,核心数据库与计算、存储均在同一地市,客户专线也拉通至A市的IDC机房,为保障核心数据库的数据安全性,需要进行跨地域灾备,但在B市重新建设数据中心投入巨大,需要考虑性价比最优的备份方案。并且可以满足RPO、RTO对于业务的需求。

由于阿里云管控节点多为100.100段的地址,受限与客户IDC网络环境问题,无法将多个VPC 内100.100段地址打通,需通过云上ECS进行代理转发方式实现数据传输。

解决方案

如何更科学有效的来考虑企业建设数据容灾备份项目的必要性呢?可以从以下两个指标来科学的衡量企业的容灾需求:RTO,Recovery Time Objective,是指灾难发生后,从系统当机导致业务停顿之刻开始,到系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要购买更快的存储设备或高可用性软件。对于不同行业的企业来说,其RTO 目标一般是不相同的。即使是在同一行业,各企业因业务发展规模的不同,其RTO 目标也会不尽相同。

传统解决方案

20220128155356

传统的容灾备份方案大多基于远程复制技术,远程复制是指运用复制技术将数据以同步或者异步的方式存储到异地灾备中心中。其主要实现方式有三种:

  1. 利用存储备份一体机,将业务与备份一体机对接,配置备份策略,实现数据备份。

  2. 利用主机远程复制软件或硬件 。

  3. 利用存储自身的复制软件。

HBR混合云备份方案

20220128155444

混合云备份HBR(Hybrid Backup Recovery)作为阿里云数据统一灾备平台,是一种简单易用的公共云灾备服务,支持阿里云上ECS文件、SAP HANA、自建数据库MySQL、Oracle、SQL Server、SAPHANA,NAS,OSS备份;支持本地数据中心文件、NAS、VMware、SQLServer数据源备份;细粒度备份恢复。支持图形化界面集中配置备份策略,可完全托管备份活动,轻松满足业务与合规需求。

20220128155522

本次采用在本地数据库(Oracle、MySQL)上安装HBR Agent,通过Agent 配置端口转发连通阿里云HBR管控以及MQTT,从而实现数据库表文件备份至HBR归档库,同时启用跨地域备份,备份库是混合云备份的云上存储仓库,用于保存备份的数据。根据备份容灾的需要,为一个仓库创建异地镜像备份库,备份库中的数据将会自动复制到镜像备份库中,实现跨地域异地备份。

方案对比

相比传统本地机房灾备方案,云灾备方案拥有明显的优势。其在上线速度、运维、成本等方面,拥有以下优势

对比项

本地机房灾备方案

阿里云混合云备份方案

上线速度

需要数月、数年的建设

天级部署,云服务即开即用

运维

运维复杂,人力投入大

高扩展性、高可靠性、免运维

成本

软、硬件采购成本高昂

节省80%TCO

演练

准备时间长,代价高昂

按需,随时,完全不影响生产

安全性

受限制于本地RAID及数据保护方式

云上数据安全保障

健壮性

地域性自然灾害导致数据丢失

异地备份一键开启,多重保护

方案实践

此方案需要开启2台ECS,分别承载不同的代理任务。1台承载HBR、MQTT代理,另外一台开启OSS统一代理,负责OSS相关的域名转发工作。

配置HBR和MQTT代理

在第一台ECS配置HBR、MQTT代理,测试之前先清理掉iptables规则,执行:

iptables -t nat -F

开启IPV4转发:

echo 'net.ipv4.ip_forward=1' >>/etc/sysctl.conf

sysctl -p

配置HBR管控转发:

iptables -t nat -A PREROUTING -p tcp -m tcp--dport 60305 -m comment --comment 'hbr' -j DNAT --to-destination 100.100.x.x:60305

配置MQTT转发:

iptables -t nat -A PREROUTING -p tcp -m tcp--dport 443 -m comment --comment mqtt -j DNAT --to-destination 100.100.x.x

配置SNAT源地址转换:

iptables -t nat -APOSTROUTING -j MASQUERADE

检查配置是否正确:1+1

OSS统一代理

在第二台ECS配置代理转发,负责3个OSS相关域名的转发,测试之前也要清理掉iptable规则,避免出现转发错误,执行:

iptables -t nat -F

开启IPV4转发:

echo 'net.ipv4.ip_forward=1' >>/etc/sysctl.conf

sysctl -p

配置OSS统一转发:

iptables -t nat -A PREROUTING -p tcp -m tcp--dport 443 -m comment --comment 'oss' -j DNAT --to-destination 100.115.X.X

配置SNAT源地址转换:

iptables -t nat -APOSTROUTING -j MASQUERADE

检查配置是否正确:1+2

IDC部署HBR Agent

下载HBR客户端:

wget'https://a-hbr-resource-cn-qdao.oss-cn-qdao.aliyuncs.com/unibackup/hbr-uni-install-linux.tar.gz'

tar -zxvfhbr-uni-install-linux.tar.gz

chmod u+x client

检查目录是否如下:图片 4修改/etc/hosts,添加MQTT域名解析引流到第1台ECS,添加3个OSS域名引流到第2台ECS:

第1台ECS的IP post-cn-n6w1oj5j506-internal-vpc.mqtt.aliyuncs.com

第2台ECS的IP oss-cn-qdao-internal.aliyuncs.com

第2台ECS的IP a-hbr-resource-cn-qdao.oss-cn-qdao-internal.aliyuncs.com

第2台ECS的IP uni-0008e3qisk2j6uzkwz2k.oss-cn-qdao-internal.aliyuncs.com

使用控制台命令启动client,以便生成hbr agent的配置文件:

20220128155741

耐心等待安装,会去公网下载rpm包,成功之后查看hbr agent生成的配置文件。

重启一下agent:

systemctl restart dbackup3-agent

然后就能在阿里云控制台看到注册成功的实例了:

20220128155652

Hbr Agent会自动扫描机器上的MySQL/Oacle实例,需要在控制台点击配置按钮填写数据库账号密码即可。

然后点击备份,勾选整库:

然后立即备份一次:

图片 8

就此一切就绪,可以回到控制台操作了:

20220128185243

在MySQL机器上验证先删除某个database,再用HBR控制台备份恢复,表的确复原了出来了,至此数据库上云备份已经完成。

跨地域备份

图片 10

备份库是混合云备份的云上存储仓库,用于保存备份的数据。您可以根据备份容灾的需要,为一个仓库创建异地镜像备份库,备份库中的数据将会自动复制到镜像备份库中,实现跨地域异地备份。

  1. 登录混合云备份管理控制台。

  2. 在左侧导航栏,单击概览。

  3. 在概览页面,单击备份库选择所在地域,例如华东1(杭州)。

  4. 单击对应备份库右上角的跨地域备份。

方案优势

  • 阿里云HBR存储库作为备份和归档存储,服务可用性99.9%,可靠性12个9。

  • 提供文件分析功能,多维度展现数据特点,针对性制定备份、归档计划。

  • 利用公共云优势可多备份/归档客户端并发工作,充分发挥存储与网络性能,缩短作业时间。

  • 提供备份库、归档库内容全局检索,秒级查询,快速恢复。

  • 可选择性将数据直接恢复/取回放至云上,使用公共云产品能力进行测试、开发、数据分析等工作。

客户价值

  • 备份/归档客户端免费,客户可根据数据量多少、带宽大小以及RPO要求灵活配置

  • HBR存储库按需购买,弹性扩容,客户可根据细分场景选择备份库、归档库和冷归档库,实现价值最大化

  • 管理策略一次配置、自动执行,界面简单易用,出错自动预警,全托管云服务

  • 全局搜索,精准找回备份/归档数据,快速恢复业务,轻松应对审计需求

相关概念

RTO

Recovery Time Objective即恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。

RPO

Recovery Point Objective即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。

备份

在信息技术与数据管理领域,指将文件系统或数据库系统中的数据加以复制;一旦发生灾难或错误操作时,得以方便且及时地恢复系统的有效数据和正常运作。重要资料应当异地灾备,降低风险

归档

数据存档(data archiving)是将不再经常使用的数据移到一个单独的存储设备来进行长期保存的过程。数据存档由旧的数据组成,但它是以后参考所必需且很重要的数据,其数据必须遵从规则来保存。数据存档具有索引和搜索功能,这样文件可以很容易地找到。

容灾

容灾是一个范畴比较广泛的概念。广义上,容灾是一个系统工程,包括所有与业务连续性相关的内容。对于IT而言,容灾是提供一个能防止用户业务系统遭受各种灾难影响破坏的计算机系统。狭义的容灾是指建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当主要站点因意外(如火灾、地震、城市供电中断等)停止工作时,整个应用系统可以利用辅助站点快速恢复,并继续工作。