虚拟磁带库VTL:压缩处理能力高达800MB/s

  作者:Amteam.org
2008/10/21 19:51:00
本文关键字: 存储 备份

汉帆(杭州)信息技术有限公司 马剑杰

相对于物理磁带库,虚拟磁带库(Virtual Tape Library,VTL)使用了兼容磁带备份的管理软件和传统备份作业流程,既可以保存用户对物理磁带库的已有投资,又可以通过使用更可靠、更稳定的磁盘代替磁带存储介质,使设备可用性和备份可靠性大幅提升。如果归档数据未被导出到物理磁带,而是存储于VTL系统的磁盘中,要恢复它不会涉及任何机械工作,速度就像磁盘备份一样快,恢复工作得到很大简化。VTL的上述优点,使得它在替代老的备份系统和新建备份系统中大受欢迎,得到市场和用户的广泛认可。

伴随VTL市场的发展,各种新的优化技术应运而生。本文主要针对VTL设备中的容量优化技术,包括硬件压缩(Hardware Compression)和重复数据删除(De-Duplication)技术进行探讨。

硬件压缩性能高

存储系统通过使用RAID加速卡和TCP/IP卸载引擎加速卡(TCP Offload Engine,TOE),可以显著提升系统RAID计算及TCP/IP协议的性能。与此相类似,通过采用专门的硬件压缩加速卡,将原来运行于VTL系统主机CPU上的压缩/解压缩任务,转交到单独的硬件压缩/解压缩加速卡上,可以显著提升VTL系统的压缩/解压缩性能。

从实际应用来看,硬件压缩的优劣主要表现在以下三方面:算法复杂度、压缩速度和压缩比。高性能VTL设备需要采用压缩算法复杂度较低的压缩方式,以降低实现成本,同时压缩速度和压缩比越高越好。Hifn公司DR系列硬件压缩卡采用独有的压缩芯片。该芯片使用Hifn公司拥有专利的LZS无损压缩算法。相对于桌面用户耳熟能详的GZIP、RAR等压缩算法,该算法具有算法复杂度更低、压缩性能优异、压缩比适中以及独有的反容量膨胀(Anti-Expansion)功能等优势。正是由于上述优势,该算法已被广泛地应用于网络和存储领域,并被ANSI、IETF、ATM论坛、Frame Relay论坛等国际标准组织和技术联盟采纳为业界标准的一部分。

如果将特定测试平台下未采用压缩功能时VTL系统的备份速度定为100,在同样的硬件配置下,增加软件压缩功能之后,整个系统的备份速度下降到原来的54%,也即备份速度减慢了46%。如果采用Hifn公司DR1000硬件压缩加速卡,将压缩部分的运算转交给专门的硬件压缩加速卡,整个系统的备份速度将迅速恢复到未采用压缩功能时的97%。相对于软件压缩,采用硬件压缩加速卡之后,存储系统备份的速度提升了80%。相对于未使用压缩功能,系统备份的性能仅降低3%,对VTL系统的备份速度影响甚微。经过压缩之后,存储和传输中的数据量会显著缩小,存储介质和网络带宽的利用率因此提高。数据的减少不仅使存储的效率更高,成本更节约,而且可以更经济、更快速地实现数据的远程复制。

重复数据删除不可少

数据压缩的对象是备份数据流,也就是在备份数据的字节流中查找重复出现的子串。重复子串出现后,仅记录原子串的位置和重复的长度。重复数据删除的对象是文件或数据块,而且要判断新的备份文件或数据块是否已经出现,如果已经备份过,则仅记录原文件或数据块存储的位置和大小。

早期受限于VTL系统主机CPU的处理能力,重复数据删除采用的是基于文件的形式,主要应用于电子邮件管理及归档系统。随着处理器性能的提升以及类似于Hifn DR250/DR255这样的专门加速卡的出现,重复数据删除的对象逐渐转为数据块。

采用块级重复数据删除技术,读取数据时,重复数据删除引擎利用Hash算法识别惟一的数据块,系统将保留Hash索引,每个Hash编码指向一个不同的数据块。当新的备份发生时,系统会自动地与现有的块进行比对,如果索引中已经有相同的块,数据将会被删除或被指向块的指针所代替;反之则会被保存,并在索引中为其创建一个新的Hash编码。

衡量重复数据删除功能的优劣主要是看重复数据删除比率的大小。该参数与所用数据块的大小,即颗粒精细程度相关。从理论上讲,更细致的颗粒会带来更高的重复数据删除比率。然而,更细致的颗粒意味着大量的Hash表,从而对重复数据删除引擎的性能以及恢复时重组模块造成沉重的负担,进而降低重复数据删除的性能,并产生更高的CPU消耗。根据用户业务数据的不同,需要选用不同的颗粒尺寸。通常来讲,数据块的平均大小在4kB~24kB之间。在这种颗粒范围内,比较合理的重复数据删除比率在10∶1~20∶1之间,实际应用中的重复数据删除比率会随业务数据的不同而有所出入。

压缩与重复数据删除相结合

数据压缩和重复数据删除操作的对象属于备份数据流的不同级别。数据压缩针对字节流,而重复数据删除针对数据块。因此,用户在实际操作中可以将两种技术有效地结合起来。备份数据流可以先经过重复数据删除,执行去重操作,再将惟一的数据块送入硬件压缩加速卡进行压缩。经过这两步处理之后,需要存储的数据总量可能只有原始数据的2.5%~5%。

Hifn公司作为全球领先的容量优化技术的硬件加速方案提供商,其数据压缩专利算法和Express DR系列产品线,为OEM和系统集成商提供了完善的解决方案。其中,Express DR1000加速卡提供了很强的压缩处理能力,高达800MB/s。Express DR250/255加速卡在提供数据压缩加速的同时,还可为重复数据删除技术提供加速能力,支持MD5、SHA-1等主要安全Hash算法,处理性能达到250MB/s。

硬件压缩和重复数据删除两种容量优化技术可以有效地减少 备份数据对物理存储介质的消耗,提升系统的可靠性,显著降低数据中心的空间占用、供电和冷却成本,对于构建新一代节能环保的数据中心具有非常重要的意义。

责编:
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918