解密“天河二号”:见证超算成长助圆中国梦

来源:互联网  
2013/8/21 11:44:17
“天河二号”系统已经不仅仅是为了传统的高性能科学计算来进行构建的,而是在很大程度上兼顾了信息处理、数据分析等需求,是一个“多面手”,因此,整个机器从体系结构设计、从具体的技术方案设计方面都做了很多的定制化的设计。

本文关键字: 天河二号 超算成长 中国梦
王者归来!继2010年“天河一号”夺冠之后,国防科技大学研发完成的“天河二号”(MilkyWay2)系统成功登顶2013年全球超算TOP500榜单,运算速度比第二名——美国的“泰坦”快了近一倍。天河二号系统,为何能取得如此惊人的战绩?在极短的时间内胜出,“天河二号”的应用优化有何秘诀?“天河二号”会在哪些领域内发挥实战作用?中国超算的未来要如何发展?
 
在近日举办的英特尔集成众核技术峰会期间,参加大会的国防科技大学计算机学院教授、博士生导师、天河高性能计算机系统副总设计师卢凯,和国防科技大学计算机学院研究员、天河高性能计算机系统副总设计师朱小谦博士接受了记者的采访,介绍了“天河二号”系统的创新亮点,并对“天河二号”系统取得这样的成绩的原因和背后的意义进行了详细解读。
 
卢凯介绍,应广州超算中心的要求,“天河二号”系统已经不仅仅是为了传统的高性能科学计算来进行构建的,而是在很大程度上兼顾了信息处理、数据分析等需求,是一个“多面手”,因此,整个机器从体系结构设计、从具体的技术方案设计方面都做了很多的定制化的设计。
 
为“中国梦”而构建
 
我们不会专门为第一去做这个机器,这是我们的原则——卢凯
 
以每秒5.49亿亿次和每秒3.39亿亿次的峰值速度和持续速度,中国超算再次问鼎TOP500的荣誉,无疑让国人兴奋与自豪。
 
TOP500的依据,是HPL的测试方法,但HPL其实并不能真实反映系统各方面的性能。天河团队在考核系统的时候,还测试了HPCC等多个国际通用的“benchmark”,根据这些测试的结果对体系结构设计进行针对性的改进和优化。更重要的是,“天河二号”的重点,始终放在把“机器用好”这个最核心的目的。
 
卢凯认为,TOP500只是一个榜单,机器更重要的是用来给谁服务。他指出,如果说专门为了TOP500,完全没有必要在整个机器的体系结构上大费周章,而广州用户需要的是科学计算和数据信息服务处理兼顾,因而需要花费很多的人力、财力和物力去做大量与TOP500无关的事情。
 
据悉,“天河二号”将作为广州超算中心的业务主机,主要用于科学计算、工程计算以及信息化的服务等多个领域。
 
高性能计算机最初是用来做顶尖的科学问题的解决工具,但现在已经渐渐地走入寻常百姓家,跟我们生活密切相关,比如说大飞机的研制,石油勘探,还有基因工程、大型装备的设计制造等等都在用。
 
事实上,服役于天津超算中心的“天河一号”系统,已构建形成石油勘探、生物医药、动漫与影视超级渲染、高端装备制造产品设计与仿真、地理信息等5个高性能计算应用平台,涉及到了衣食住行的方方面面。而“天河二号”的研发设计初衷,就包含了信息化的服务。
 
卢凯介绍,“天河二号”将服务于广州在内的南方信息化的建设,目前广州的电子政务、GIS地理信息系统已经逐渐往该机器上迁移,国防科技大学和广州超算中心正在联手在国家的南部发掘各种应用,积极帮助将应用移植到“天河二号”上来。
 
信息化、科学计算和工程计算,归根结底,都是为了国计民生,亦即国家繁荣昌盛人民安居乐业的“中国梦”。在今年年底,“天河二号”将安装到广州超算中心,从三大方面助推“中国梦”的实现。
 
定制化设计的“多面手”
 
一个通用的高性能计算机系统往往意味着低效——卢凯
 
如前所述,兼顾科学计算和数据信息服务处理的多面手,是“天河二号”与传统HPC的最大不同。卢凯介绍“天河二号”为了满足这个需求的三大技术特点,包括“异构多态”的体系结构、微异构的计算阵列,以及多方面自主研发的成果,这些都是定制化的设计。
 
卢凯表示,高性能计算机系统原则上不存在通用的高性能计算机系统,一个通用的高性能计算机系统就意味着是一个低效的高性能计算机系统。他认为定制首先是体现在针对于应用来做定制化,二是体现在针对于应用以后再定制技术,这两方面相辅相成。
 
异构多态,即不仅仅能够满足高性能科学计算里面以计算为核心,I/O是采用大平台,面向带宽的一种模式,还面向信息处理以事务处理,以I/O为核心,以中小尺寸的I/O数据吞吐为主的计算模式,这使得“天河二号”在强化科学工程计算的同时,可高效支持大数据处理、高吞吐率和高安全信息服务等多类应用需求。
 
所谓微异构的计算阵列,是指至强处理器和至强融核协处理器的组合,整个“天河二号”系统采用了48,000颗英特尔至强融核协处理器和32,000颗英特尔至强处理器,这对于第三方应用软件以及很多现有的软件来说,它的兼容性、适用性和易用性方面都是不错的,让应用程序代码的开发和调优更加省时省力。
 
当然,系统还部分使用了我们自己的微处理器,即由国家核高基重大专项支持、国防科技大学自主研制的新一代“飞腾-1500”CPU,主要用在一些事务处理和信息服务方面。在存储方面,也采用SSD作为整个磁盘存储盘阵中间的存储层次,利用SSD低延迟快速读写访问的特性来做整个大数据的缓存。而在新型并行编程模型及框架,针对兼顾大数据时代的数据分析的需求,系统还引入了MapReduce框架,卢凯介绍,目前有6000多个结点已经部署了这个环境,正在做系统整个的优化和调优以及各种应用的试算,目前在一些视频监控方面已有实际的应用。
 
成绩源自积累
 
大家不要误认为我们用了短短两个月的时间就拿了世界第一,这里不知道凝聚了多少前人的汗水——卢凯
 
一个定制化构建的全新系统,拿到第一块芯片已是4月初,但按照TOP500的要求,5月18日提交第一个测试结果,6月1日需要提交最后的结果,“天河二号”如何能够取得TOP500榜单第一的成绩?卢凯表示,这其中实际上包含了前人的很多工作和经验。这包括天河研发团队自己的工作,以及英特尔方面的工作。
 
卢凯表示,其实在4月之前,整个系统已经在调试和优化,利用“天河一号”的经验,以及英特尔提供的一些样品,做了大量的调试和优化的工作,到了四月初,系统整个机器的架构,互联调试、存储的调试工作都已经基本就绪,万事俱备只欠东风了。
 
在拿到英特尔最新的CPU和加速器之后的调试过程当中,整个系统的调试过程依然比较顺利。卢凯认为有两个原因:一是因为他们已经对于英特尔的系统比较熟悉,“知道劲该往哪儿使”;二是“使的劲不用太大就可以了”,这是得益于英特尔的架构特色,微异构使得优化的难度相对可控。这正如英特尔(中国)有限公司行业合作与解决方案部中国区总监凌琦所说,微异构的优势,“能够兼顾统一编程模式带来的便利,又能实现处理器和协处理器异构系统所能实现的出色并行计算性能”。
 
MIC对很多人是一个新鲜的事物,卢凯表示,他们“在天河二号”的测试上有意识地对基于MIC的大规模测试进行了一个有益的引导和支持。据他透露,目前在“天河二号”上进行测试的用户中,有50%以上的用户是基于MIC混合架构的测试。中科院软件所的80万核的关于潜水的应用测试,就是一个完全的混合结构的应用。现在的应用评测效果,一个MIC能够达到双CPU节点的3.15倍,超出了他们的预期。
 
而对于经验之所以能够积累和传承,卢凯认为有两个原因:一是有一个稳定的技术体系和班子,二是有一个很好的组织模式,包括总师体制、质量体制、行政管理体制,这一套体制使得经验的交流和共享是一个很通畅的方式。
 
未来发展方向
 
没有经历就没有经验,只有实践才能出真知——卢凯
 
超算技术在发展,而人类面对的各种问题也在日益棘手,这意味着,未来必然需要更大规模的超算系统。从“天河一号”的5000个节点到现在1万多个节点已经不容易,未来如何扩展到3万个节点甚至5万个节点?卢凯认为,不同规模的机器,瓶颈大不相同,要克服问题,经验非常重要。他表示,达到5万个节点跟目前1万个点相比制约因素又发生了变化。他介绍了一些能耗、可扩展性和故障等必须要攻克的难关。
 
首当其冲是能耗的问题,达到5万个点以后,能耗的问题会进一步的加剧,卢凯认为,采用更低能耗的计算器件,更低能耗的冷却制冷体系,是将来要攻克的第一个技术。
 
其次是系统的可扩展性。“天河二号”1.6万个节点,目前采用的网络结构是目前在成本、通信带宽和延迟方面比较好的解决方案。但卢凯认为,到了5万个节点以后,现有的结构就满足不了需求,所以需要改变。
 
第三是系统可靠性的问题。整个系统的规模和它的可靠性是成反比的,系统规模越大可靠性越低,平均无故障时间越短。卢凯指出,在5万个节点的情况下,如何及时发现故障、管理故障、排除故障,或者你的计算模型能够容忍故障等等这些问题都变得很尖锐,很多东西都会成为技术的瓶颈,这是需要去攻克的。
 
卢凯还提到,还会有一些现在没有考虑到的新问题,因此,现在要仔细地梳理“天河二号”所遇到的技术瓶颈,把它扩展到一定规模以后再去想象它,甚至有时候要通过模拟环境去模拟它,看看是否会出现新的技术瓶颈或者新的问题,这样才能为将来的机器设计提供指导和依据。这也是目前研发团队正在做的工作之一。
 
不管是超算经验的积累,还是“天河二号”系统现在的使用,或是未来的发展,人才都是不可或缺的。谈到这方面,卢凯表示,在高性能计算或者是并行计算这个行业,目前国内的技术积累和基础相对来说还是偏薄弱的,我们大学的老师、大学课程里面对于并行计算课程的讲授学校屈指可数,我们培养出的学生也就很难以直接理解和用好这么大的机器。
 
他认为,需要我们超算中心的工作人员和我们系统的研制方,甚至包括Intel,联手起来,才能够把这个机器让用户用好。这需要假以时日,这个事情不是国防科大,也不是哪一方可以独立完成的,而是我们整个国家教育/科研体系的责任。
责编:王珂玥
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

发表评论

         看不清,换一个

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
IT系统一体化时代来了

2009年Oracle 用Exadata服务器告诉企业,数据中心的IT服务一体化解决方案才是大势所趋,而当前企业对大数据处理的..

高性能计算——企业未来发展的必备..

“天河二号”问鼎最新全球超级计算机500强,更新的Linpack值让世界认识到了“中国速度”。但超算不能只停留于追求..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918