重复数据删除技术

重复数据删除(重删)技术是备份和数据管理领域的一项关键技术,能够帮助企业高效应对数据快速增长的挑战,显著提升数据保护的效率并降低成本。作为云备份的重要基石之一,重删技术在提高备份性能、加快传输速度以及节省存储空间等方面发挥着至关重要的作用。本文介绍云备份中重复数据删除技术的工作原理。

image

工作流程

重删技术原理图,如上所示。云备份运用了基于高效切片算法的源端重删技术,以每个备份库作为一个独立的重删域,从而实现数据在备份库层级上的全局去重。工作流程主要包括以下五步:

  1. 在进行备份时,备份引擎(备份客户端或备份服务集群)首先会读取您的原始文件、数据库以及虚拟机等数据。

  2. 备份引擎将原始数据切片。

  3. 备份引擎将切片内容与已经在备份库的切片数据进行比对,识别备份库中不存在的切片。

  4. 备份引擎仅将备份库中尚不存在的切片上传至备份库。

  5. 备份引擎将每个文件或虚拟机所包含的切片ID列表存储到备份库中,便于在恢复时,将原始数据组装并写入到恢复目的地。

技术价值

  1. 节省备份存储消耗:云备份采用切片后重删技术,相比文件级重删,能够更精细地识别重复数据,显著提高重删比例。此重删过程在备份库级别执行,对所有存入同一备份库的数据进行全局重删,因此拥有更大的重删范围和更高的重删率。与不具备重删功能的备份产品相比,能极大地降低所需的备份存储空间。使用云备份服务时,您只需为重删后的实际备份存储容量大小付费。

  2. 节省网络带宽:在源端执行重删操作,仅上传那些备份库中尚未存在的数据段,此方式在混合云环境中有效节省上云带宽。

  3. 提升备份性能:通过数据读取、切片与重删形成高效的流水线。能够快速识别并避免重复数据的传输,使备份性能提升数倍以上。

  4. 提升备份数据安全:通过将数据切分为随机长度的片段后上传,可以彻底打乱文件内容,使得攻击者难以识别数据的原始格式,从而增强了传输和存储过程中的安全性。

关联概念

  1. 压缩技术:压缩是指通过编码技术来减少数据所占用的存储空间。云备份结合重删技术和压缩技术进一步减少所需存储的数据量。经过重删处理后的每一个数据片段都会被压缩,然后再存入备份库中,从而更有效地节省了存储空间。

  2. 重删压缩比(简称重删率):重删率是指备份的原始数据总量与实际存储到备份库中的数据量之间的比值。例如,如果用户每天对一个30GB的目录进行一次全量备份,并保留30天的数据版本,则备份的原始数据总量为30GB × 30 = 900GB。经过重删和压缩处理后,这些数据在备份库中实际占用的空间为28GB。因此,重删率为900:28,约等于32:1。

  3. 永久增量备份:对于文件类备份,无论是本地文件、ECS文件、NAS、OSS还是CPFS的备份,云备份采用了一种高效的永久增量备份机制。其工作原理如下:在每次执行备份任务时,备份引擎首先识别出与上次备份相比发生变化的文件(包括新增、修改或删除的文件),仅读取这些变化文件的内容,并将其写入到备份库中。随后,在备份库的后端,会将此次收集到的增量数据与上一次全量备份的数据进行合并处理,生成一个新的全量备份点。这样显著减少了对客户数据的读取量,从而有效提升了整体备份的效率。需要注意的是,在计算重删率时,是基于每个备份点所对应的全量数据来进行计算的。