超级计算机装备“中国芯”
来源:中国经济网 更新时间:2012-09-04

    超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。10年来,经过我国科技工作者的不懈努力,我国高性能计算机研制水平显著提高。

    穿过齐鲁软件园办公大楼的一个长廊,便是成立不到一年的国家超级计算济南中心。在占地约80平方米的大房间里,9个两米多高的黑色机柜呈椭圆形排列着,十几名工作人员通过显示器监控着计算机的运行状态。

    在我国4个超级计算中心中,国家超级计算济南中心是最年轻的一个,也最受瞩目。国家并行计算机工程技术研究中心有关负责人告诉记者,由国家并行计算机工程技术研究中心研制的“神威蓝光”的最大亮点是:全部装备了“中国芯”。

    它的建成,标志着我国成为继美国、日本之后第三个能够采用自主CPU构建千万亿次计算机的国家,实现了国家大型关键信息基础设施核心技术的“自主可控”目标。

    创新——

    CPU和系统软件全部国产

    从只能进口到全部国产,作为我国首台全部采用国产CPU和系统软件构建的千万亿次超级计算机系统,对我国超级计算机来说称得上是一座里程碑。“这无疑具有划时代的意义。”国家863计划“高性能计算机及其核心软件”重大专项总体组组长钱德沛这样评价。

    宏观到宇宙起源,微观到病毒研究,超级计算机在军工、国防、医药、工业方面都有广泛应用。然而,造不出性能好的CPU曾一直是我国计算机业的一块“心病”。没有“中国芯”就没有独立自主的信息化和国家信息安全,对超级计算机而言更是如此。

    上世纪80年代,随着改革开放大幕的拉开,我国的天气预报、石油勘探等行业急需一批高性能计算机。由于没有能力制造自己的高性能计算机,国家只能花巨资从国外进口设备。中国工程院院士金怡濂回忆,过去我国进口高性能计算机一直受到严格限制,一些国家要么不允许出口,要么只出口已经过时的产品,即使机器卖给中国了,国外厂商以“技术保护”为由,将设备安装在透明的玻璃机房中,禁止中国人入内。

    “玻璃房子”的经历让我国科研工作者刻骨铭心。为发展自己的高性能计算机,我国先后启动了若干研制高性能计算机的宏伟计划。1992年,国家科委批准组建国家并行计算机工程技术研究中心,由金怡濂院士担任总设计师,主持“神威”巨型计算机系统的研制。20年来,“神威”完成了一系列关键技术突破,相继攻克了存储墙、能耗管理、系统可靠性以及并行计算效率等诸多挑战。

    2010年,在“十一五”“863计划”信息技术领域“高效能计算机及网格服务环境”重大项目的支持下,国家并行计算机中心启动了“神威蓝光”高效能计算机的研制。经过一年多的研发建设,实现了从十万亿次、百万亿次到千万亿次的跨越。

    “与我国其他千万亿次级超级计算机不同,‘神威蓝光’系统基于可扩展至万万亿次体系架构,全部采用国产通用‘申威’16核CPU构建。”该中心的有关负责人说。

    性能——

    液冷系统设计全球领先

    对中国能用自主设计的CPU搭建千万亿次超级计算机,世界超级计算机TOP500项目领导者、美国田纳西大学计算机科学家杰克·唐加拉表示,“神威蓝光”展示了一种复杂的液冷系统,这可能是超级计算机设计上的一项重大进步。

    打开笔记本电脑,总能听到散热器发出的或大或小的声音。如果20万台笔记本搁在80平方米的房间里同时运行,声音将会有多大?“神威蓝光”每秒峰值运算达1.07千万亿次,比20万台普通笔记本同时运算还要快,奇怪的是,居然没有什么声响。

    为什么会没有噪音?国家超级计算济南中心主任顾卫东告诉记者,那是因为“神威蓝光”创新地运用了水冷散热系统,“就像三明治夹心,水冷板被紧紧地夹在两块CPU板中间,无缝同步散热,所以尽管CPU高速运行,却听不见风扇的噪音。”

    超级计算机的冷却方式主要有3种:全水冷、全风冷和水冷风冷相结合。水冷系统设计虽然技术难度比较大,但具有系统功耗低、组装密度高、可靠性强等优点。据了解,“神威蓝光”所有器件均采用了水冷技术,并且采用内部封闭循环方式,与以往的水冷技术相比,该技术几乎不损耗水且无噪音。

    “相比风冷,水冷系统本身的功耗要降低40%,这也是‘神威蓝光’尤为引人注目的地方。”顾卫东说。据介绍,以现有的元件构建千万亿次级超级计算机,每年大约要消耗一个中型核电站的发电量,但“神威”功耗极低,只有1兆瓦,美国最快的超级计算机“美洲豹”约为7兆瓦,我国的“天河一号”也接近4兆瓦。“正因为世界领先的散热系统设计,这台超级计算机每年只需要约2000万元的电费。”

    设计精良、与系统结构配合紧密的水冷系统,解决了风冷无法达到的冷却需求,大幅度提高了单机仓组装密度,减少了机房占地面积、机房建设费用和运营费用。据介绍,“神威蓝光”超级计算机的CPU共有8704个,单机仓的组装密度达1024个CPU,千万亿次规模仅需要9个这样的机仓便可以轻松实现。

    水冷却还降低了器件结温,提高了器件可靠性,从而提高了全系统可靠性,这对于超级计算机来说非常关键。据了解,“神威蓝光”系统的稳定性远胜于一般的x86集群,在Linpack测试中,9个多小时全系统测试,没有发生一次故障,系统可用率大于99.99%。

    “全部采用国产CPU、良好的稳定性、高效液冷、高密度组装,是‘神威蓝光’的四大亮点和主要特色。”顾卫东说。正是由于采用了多种节能技术和水冷技术以及高密度组装技术,使得“神威蓝光”的性能功耗比超过741MFlops/W(每瓦功耗所获取的运算性能)。顾卫东解释,“这个数据意味着一瓦的电灯泡亮一秒的电量,神威能进行7.41亿次浮点运算。”

    应用——

    资源使用率逾七成

    济南中心正在打造海洋数值模拟和天气预报、信息安全、生物信息和新药筛选、工业设计分析、环境污染模拟、金融风险分析等六大应用平台,以更好地利用“神威蓝光”的计算资源和计算能力,更充分地发挥国产超级计算机的优越性能。

    实际上,对于超级计算机而言,“用好”比“性能好”更重要。过去,我国往往是先研制出超级计算机,再去找需求,应用程度远低于欧美等发达国家。

    “‘神威蓝光’的研发一开始便是面向山东省经济社会发展需求。”国家超级计算济南中心主任助理潘景山说。他告诉记者,近年来,山东省经济社会发展迅速,“山东半岛蓝色经济区”和“黄河三角洲高效生态经济区”两大国家发展战略相继批准实施,山东省在海洋产业、生物医药、现代农业、现代制造业等重点产业对超级计算机都有非常迫切的需求。

    “神威蓝光”系统研制伊始,便坚持研制与应用相结合,紧贴山东海洋大省的特点,充分挖掘用户应用,移植重大课题。潘景山介绍,一方面,采用国产CPU构建高性能计算机系统的重要优势在于,可以针对具体的应用需求和核心算法特点,优化处理器结构,设计加速扩展指令,从而提高重大应用的解算能力。如,“神威蓝光”已经针对国家重大应用,如气候模拟中广泛使用的地球系统模式等做了多项优化,效果非常好。另一方面,为促进“神威蓝光”的应用,山东省设立了“超级计算科技专项”,制定了重点领域推广计划,首期在海洋科学、新药研制、气象预报、金融分析、工业仿真、智能交通等领域开展了一系列应用。

    济南中心还与山东省云计算中心结合起来,互连互通,走出一条融合超级计算、云计算的创新之路。目前,济南中心作为云计算中心的资源池,已对外提供计算、存储、开发平台、软件应用等各种云服务。

    “神威蓝光”的投入运行和推广应用,大大提升了山东省乃至周边地区科技创新能力、推动了重大行业应用、促进了重点产业的跨越式发展。目前,国家超级计算济南中心已为30多家单位、40多项国家及省部科技课题提供计算服务,计算资源利用率峰值在70%以上,并取得了一批科技成果。

    比如,济南中心为国家海洋局第一研究所提供的全球10公里分辨率海洋环流模式数值模拟服务,原来需要50天才能够完成,现今只需1天即可完成。

    再比如,山东省“精细化集合数值天气预报平台”项目,依托“神威蓝光”进行综合气象观测的中尺度数值模式开发及业务运行,分析预测能力相当于以往的50倍,而且精度和准确度更高。