ESSD 云盘通过三副本存储和全链路数据校验,保障数据的持久性和完整性。本地冗余 ESSD 云盘提供 99.9999999%(9个9)的数据可靠性,同城冗余 ESSD 云盘提供 99.9999999999%(12个9)的数据可靠性。
技术优势
数据持久:每份数据自动保存三个副本,分布在不同机架的物理节点上。一个或两个副本不可用时,仍可从剩余副本正常读写。
数据正确:数据写入和存储的每个环节,都会通过校验算法生成校验值(类似数据的“指纹”),并逐级比对。数据与校验值不匹配时,立即触发纠错,防止传输和存储过程中的数据损坏。校验由硬件指令加速完成,对读写性能几乎无影响。
故障自愈:检测到存储节点故障或副本数不足时,自动从健康副本恢复数据,无需人工干预,恢复到完整的三副本状态。整个恢复过程对业务透明。
保障场景
硬件故障导致数据不可用
痛点:硬盘损坏、服务器宕机、机架断电等故障不可预测,物理设备失效后存储在上面的数据将无法访问。
技术保障:三副本机制将数据分散存储在不同物理节点。故障发生时,自动切换到健康副本继续提供服务,并在后台重建新副本,业务无感知。
静默数据损坏
痛点:数据在传输或存储过程中发生未被察觉的错误。其诱因包括内存位翻转、网络传输错误或硬盘固件/介质老化等。由于传统校验方式难以侦测,此类错误会引发数据不一致,对数据正确性构成严重威胁。
技术保障:全链路数据校验在数据写入的每个环节生成校验信息,读取时逐级比对,发现不匹配立即触发纠错。确保读取数据与写入时完全一致。
可靠性技术抵御基础设施层的硬件故障和数据损坏。误删除、病毒攻击等应用层风险需通过快照防护。
三副本机制
三副本机制旨在解决硬件故障导致的数据不可用问题。写入云盘的每一份数据,在底层自动复制为三份,存储在不同的物理节点上。
数据写入流程

采用多副本同步写入机制,只有当全部副本全部写入成功时,写操作才会返回成功,否则失败。该机制保障了数据的强一致性,即任何后续的读取请求都能访问最新写入的数据。
副本分布策略
为避免关联故障(如机架断电导致同机架多个副本不可用),三副本自动遵循以下放置策略:
机架隔离:三副本分布在不同机架的存储节点上,单台机器或者单个机架故障不影响数据可用性。
故障域隔离:本地冗余 ESSD 云盘的三个副本分布在同一可用区内的不同机架;同城冗余 ESSD 云盘的副本跨可用区分布,容灾能力从机架级提升至可用区级。
负载均衡:在满足隔离要求的前提下,综合考虑存储容量、I/O 负载和网络拓扑,以实现全局资源的均衡和最优性能。
故障恢复流程

系统具备自动化的数据自愈能力。当监测到副本数不足时,系统会自动触发恢复流程。在满足隔离策略的前提下,选择新的健康存储节点,并从现有副本中复制数据,从而快速恢复至完整的三副本状态。整个过程对业务透明,无需人工干预。
全链路数据校验
全链路数据校验旨在解决数据传输和存储过程中的静默损坏问题。
校验流程
"全链路"指数据从写入到存储经过的每一环节均利用CRC(循环冗余校验)校验码校验数据是否存在错误。
I/O 发起后,数据进入块存储链路,生成初始校验码。
内存搬运后,数据搬运到计算节点内存后,比对校验码,检测是否存在数据错误。
网络传输后,数据到达存储节点网络层后,比对校验码,检测传输过程中的比特错误。
存储节点接收时,数据写入存储节点内存后,比对校验码。
落盘存储时,数据写入磁盘后,比对校验码。
任一环节发现校验码不匹配,立即触发错误处理。校验由硬件指令加速完成,对读写性能几乎无影响。
处理错误
根据错误位置采取不同处理方式:
网络传输层:自动重传,直至数据校验通过。
存储介质:标记坏块并从其他副本读取正确数据恢复。
内存:由 ECC(内存纠错机制)自动纠正,并进行 IO 重试。
常见问题
三副本机制是否表示需要支付 3 倍的存储费用?
三副本机制为阿里云数据可靠性保障,其底层 3 倍存储冗余成本已由阿里云承担,只需支付购买的云盘容量费用。例如购买40 GiB云盘,可用空间和计费容量均为40 GiB。
如何进一步保护数据安全?
创建自动快照策略定期备份,异常时可以利用快照回滚云盘。
跨地域复制快照,发生故障时可使用此快照创建数据盘并挂载至备实例。
三副本机制可以防止所有数据丢失吗?
三副本机制抵御基础设施层的硬件故障。误删除、病毒攻击等应用层风险需通过快照防护。
三副本机制如何保证数据一致性?
采用多副本同步写入机制,只有当全部副本全部写入成功时,写操作才会返回成功,否则失败。因此可保障数据的强一致性,即任何后续的读取请求都能访问最新写入的数据。