分布式存储系统中数据副本管理机制

来源: e-works   
2013/11/14 19:26:41
分布式存储系统是基于存储服务器集群和分布式文件系统,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,并通过各种相应的应用软件或应用接口,共同为用户提供高可用、高可靠的数据存储和业务访问功能的存储资源系统。

(3)邻居节点复制。对网络数据都保存访问历史记录,节点将被频繁访问的副本新建一份发送给频繁请求的节点的邻节点,当请求节点再次访问该数据时,可以到其邻居节点直接读取数据了,从而减少了请求的跳数。该方法缺点在于历史记录预测会有一定概率的失误。

(4)随机复制。随机选择一个或多个节点来存放副本,有随机选择的对象是请求路径上的节点和整个网络的节点两种策略,后者主要运用多哈希函数和关联哈希两种方法。多哈希函数的优点是可以动态调整副本的数目;副本被高度分散了,有益于负载均衡;缺点是管理多个哈希函数是个复杂的工作。关联哈希的优点是明显减少了访问时延;缺点是产生较大的副本数量和系统开销。

(5)优先级复制。请求发生就向已经有副本的节点发送所需副本,直至饱和,再选择别的节点来存储副本。优点是减少了存放副本的节点数,减低了节点的维护开销;缺点是存放副本的节点易过载,容易出现新一轮的访问热点问题。

通过比较这5种副本分布方法,可以发现路径复制和优先级复制方法不够灵活、效率相对较低,其它3种方法可以在大多数分布式网络环境下使用并能解决热点问题。

1.3 典型副本分布方法

文献提出了一种渐进优化的选举和分区合并算法来存储多个副本,以求得目标区域中的最佳存储节点。方法假设要存储n个副本,先将拓扑结构划分为多个区域,每个区域都有一个服务节点,即该区域内最适合放置副本的节点,然后根据选举法,选举过程中,考虑了客户的分布情况、访问频率、通信时延和节点的处理能力四个因素,每次淘汰一个区域,并有调整剩余区域的环节,经过多次的选举淘汰区域调整,最终将整个网格划分为n个区域,这n个区域的服务节点就是最佳存储节点。

文献提出一种网格环境下的多副本后向预测调度的算法。方法与邻居节点复制策略有些相似,也是根据已收集的历史数据来预测合适的存储节点,不同的是在发生负载失衡情况之前将副本直接存储到选出的节点而不是它们的邻居节点。

1.4 数据迁移方法

网络系统的一个重点问题是如何实现负载均衡,通过新副本的添加或撤销能达到这一目的,另外一种常用的方法则是数据迁移。虚拟节点技术的核心思想就是数据迁移。数据虚拟节点是存储数据文件、路由定位的基本单元,一个物理节点可管理多个虚拟节点。若一个物理节点过载,则将其管理的部分虚拟节点转移给其它物理节点管理,数据将随之转移。

虚拟节点技术有一对一、一对多和多对多这三种策略。虚拟节点策略的缺点在于实现复杂。由于复制技术本身已包含分布策略,且虚拟节点技术必须是在拥有足够数量的副本才能实现,所以虚拟节点技术更适合于与复制技术结合使用。

2.副本定位

节点访问数据性能表现的优劣很大程度上受到数据定位策略的影响,即如何快速定位出目标数据所在节点的位置,然后读取数据。

传统的基于覆盖网(Overlay network)的副本定位算法虽然在不同程度上解决了副本定位效率、负载均衡和可扩展性等问题,但目标节点不能很好地满足特定应用的服务质量需求 。文献提出一种多维度服务质量约束的副本定位方法,通过采用分层和对等的混合定位机制,在高效定位的同时,还保证目标节点提供有效的服务质量。方法基于区域内分层、区域间对等的覆盖网拓扑结构,运用了区间路由算法、副本信息发布算法、站内副本算法、区内副本定位算法和区间副本定位算法等五个算法,使大量副本定位在本区域完成,从而有效降低了定位延迟,以满足特定应用的多维度服务质量规约作为副定位标准,有效地保障了目标节点的服务质量。

共2页: [1]2 下一页
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918