最佳实践

更新时间:

存储服务数据容灾最佳实践

冗余存储

阿里云对象存储OSS提供本地冗余存储和同城冗余存储两种存储冗余类型,覆盖从单可用区到多可用区的数据冗余机制,以保证数据的持久性和可用性。其中本地冗余存储采用单可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一个可用区内多个设施的多个设备上,本地冗余存储能确保硬件失效时的数据持久性和可用性。同城冗余存储采用多可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一地域(Region)的多个可用区。当某个可用区不可用时,同城冗余存储仍然能够保障数据的正常访问。

跨区域复制

阿里云对象存储OSS产品跨区域复制(Cross-Region Replication)功能是跨不同OSS数据中心(地域)的存储空间(Bucket)自动、异步(近实时)复制文件(Object),将Object的创建、更新和删除等操作从源存储空间复制到不同区域的目标存储空间,实现跨区域容灾。如果用户对数据的安全性和可用性有极高的要求,对所有写入的数据,都希望在另一个数据中心显式地维护一份副本,以备发生特大灾难(如地震、海啸等)导致一个OSS数据中心损毁时,还能启用另一个OSS数据中心的备份数据。 块存储云盘具备基于块存储数据异步复制能力实现跨地域或者跨可用区数据保护的功能。该功能可以将某一块云盘的数据,异步复制到其他地域或者同地域其他可用区内的另一块云盘中,实现存储数据的容灾备份。用户可以通过该功能建立关键业务的容灾能力,保护数据库数据的同时提升业务的连续性。

版本控制

版本控制是针对存储空间(Bucket)级别的数据保护功能。开启版本控制后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来。用户在错误覆盖或者删除对象(Object)后,能够将Bucket中存储的Object恢复至任意时刻的历史版本。当用户删除OSS数据后想要找回时,可使用版本控制功能,恢复已删除的数据。

定时备份

对象存储OSS数据可以使用OSS的定时备份功能将存储空间(Bucket)内的文件(Object)定期备份到云备份(Cloud Backup)中,当用户的Object意外丢失时,可通过云备份进行恢复。文件存储NAS支持与云备份(Cloud Backup)无缝衔接,云备份在备份通用型NAS时不进行文件系统快照,而是基于高效的文件系统扫描机制。通过配置备份策略生成多个备份副本数据,可以在发生数据丢失或受损时及时恢复文件。

一致性复制数据校验

块存储云盘一致性复制组能够实现业务系统跨多块云盘的容灾场景下,对多块云盘的异步复制做统一管理和操作,同时可以确保同一复制组内的多块云盘数据能够恢复到同一个时间点,以便实现容灾场景下实例级别或者多实例级别的容灾保护。

数据库容灾最佳实践

数据库备份

阿里云数据库具备数据库的备份恢复能力,除了小部分海量数据产品需要手工开启备份恢复功能外(如ClickHouse、Lindorm),其余常见数据库产品已默认开启数据库的自动备份,在数据库进行备份后,可利用现有备份集恢复数据库实例的数据至相同的地域可用区,或者异地恢复至其他地域的可用区。另外阿里云还提供单独的数据库备份DBS产品能力,可精细化管理制定数据库的备份和恢复策略,满足数据库容灾的基本能力要求。

云盘冗余

阿里云云盘版本数据库底层存储利用了阿里云云盘的存储能力,通过多副本冗余确保数据可靠性,同时高可用版本的数据库还具备主备节点的冗余能力。

同城容灾

除适用于测试环境的单节点基础版数据库实例外,阿里云数据库产品具备主备的高可用能力,主备之间通过数据复制实现实时的数据同步,后台管控通过准实时的节点探测及时发现节点异常,并根据探测到的异常主动触发主备高可用切换。用户可选择对应产品的多可用区部署方式实现数据库产品的同城容灾能力。

异地容灾和全球多活

异地容灾的基础能力可以通过数据库备份异地恢复的方式实现,但其时效性较差,目前远距离传输的成本已经低到足以支持大数据量的数据实时传输,所以目前异地容灾的实现以实时传输为主。阿里云数据传输DTS的数据同步产品可以支持主流的关系型数据库的实时同步(如阿里云RDS、PolarDB产品),利用阿里云更低时延的内网高效传输实现不同地域之间的稳定数据库容灾能力,部分产品原生支持双向数据同步功能,结合业务的多写设计可实现异地容灾的双写或多写,实现更低成本的容灾建设。数据同步产品另外还支持Redis、MongoDB、PolarDB-X等产品,数据迁移产品支持更多的其他产品,如DB2、Teradata、HBase等。

此外,PolarDB产品的全球数据库网络GDN通过同一国家内多个不同地域的多个集群,原生实现了所有集群的数据同步,通过GDN可提供异地容灾能力。

闪回查询

除了数据实时同步的容灾场景外,容灾建设中还需要考虑数据被误删除等人为因素导致的异常处理,传统方式下往往只能通过备份恢复到异常操作前进行检查处理,阿里云PolarDB具备闪回查询能力,可通过开启闪回查询,在异常操作后基于时间点的闪回查询快速定位异常,并将误删的数据快速恢复,大大提高故障恢复效率。