当前位置：首页 > 存储 > 容灾备份 > 正文

大数据疑难杂症探秘

来源：网界网

2012/11/26 14:06:52

大中小

面对多达250TB的数据集，纽约州立大学的研究人员用大规模硬件升级、以及使用基于R统计语言分析技术的方式，找寻解开疑难杂症病因的密码。

分享到：新浪微博腾讯微博

本文关键字：大数据 IBM Netezza

面对多达250TB的数据集，纽约州立大学的研究人员用大规模硬件升级、以及使用基于R统计语言分析技术的方式，找寻解开疑难杂症病因的密码。

纽约州立大学(SUNY)布法罗分校是全球领先的多发性硬化症(Multiple Sclerosis)研究中心之一。在这里，基于大数据的分析正在帮助研究人员找寻潜在病因和治疗方法，以帮助患者缩短治愈周期。

目前多发性硬化症的病因尚未十分明确，但是业内普遍认为，多发性硬化症是由于病毒和基因缺陷等因素共同导致的，同时可能还与阳光和吸烟等环境因素有关。Murali Ramanathan博士是纽约州立大学研究中心数据密集发现创新的联执主任。他们开发了名为AMBIENCE的技术，这一技术能够让研究人员对多遗传变异——单核苷酸多态性(SNP)与增加患者罹患多发性硬化症风险的环境因素之间的交互作用展开更为高效地搜索。

用于这一多变量研究的数据集容量已超过250TB。同时，由于研究人员试图发现数千个遗传因素与环境因素之间的重大交互作用，因此数据分析需要更加强大的计算能力。在这项研究中，有两个主要障碍需要被克服：即对庞大数据集进行处理，并利用这些数据集创建复杂而易于定义的分析模型。研究人员不仅希望能够发现哪些个体变量更为重要，同时还希望能够发现哪些综合变量更为关键。

需要在商用硬件上运行抽样数据的算法几乎要花上一周的时间才能得到结果。研究人员很快就发现，要想对全部数据进行运算还要花上数周的时间。过长的运算时间可能会导致一些额外的问题，比如算法调整、数据变更，等等。

为了应对这些挑战，研究人员选择创建一个整合了IBM Netezza分析数据库工具和Revolution Analytics公司的商业版R语言的分析架构。Netezza可以将处理能力提升100倍，将分析所需要的时间由27.2小时缩短至11.7分钟。并行处理也非常关键，但这仅仅是一个开始。与此同时，一些分析操作在数据移出磁盘时就已经开始执行，而不是仅在主处理器上进行全部的处理工作，因此它们能够更快、更高效地进行分析。

在R统计语言的基础上，Revolution Analytics公司允许研究人员快速而方便地在模型中添加和移除变量，无需编写数百行代码。同时，他们还允许团队使用医疗记录、实验室数据、核磁共振成像(MRI)扫描和患者调查等数据集变量和大量因变量，以对这些变量中的交互作用展开研究。

过去，纽约州立大学的研究团队必须重新编写整个算法。现在，得益于新的系统，科研人员可以自行轻松地调整算法。借助于新的解决方案，研究人员能够使用新的算法，添加多变量和数据集进程。这些在以前都是不可想象的。得益于这些成就，研究人员目前正在转向更为复杂的研究，朝着解开多发性硬化症背后的神秘机制又向前迈进了一步。(范范编译)

责编：杨雪姣

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

大数据疑难杂症探秘

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。