博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2311|回复: 1

全面部署HS22刀片 揭秘南京大学HPC中心

[复制链接]
发表于 2011-2-13 18:27:27 | 显示全部楼层 |阅读模式
全面部署HS22刀片 揭秘南京大学HPC中心


  2009年国内高性能计算排行榜Top100上,来自南京大学的高性能计算系统以34万亿次的Linpack成绩排名第七(国际Top500排名203)。这套系统采用IBM HS22刀片服务器打造,于去年第二季度开始建设,并于今年7月份完成全部调试工作正式投入对南京大学各科学院系的高性能计算服务中。


▲南京大学高性能计算中心 周庆林老师


  日前,记者来到南京大学高性能计算中心采访了负责此项目的周庆林老师,具体了解了南京大学选用IBM HS22刀片服务器的背景故事,并参观了该高性能计算中心机房。
  1、南京大学高性能计算中心的建设背景
  据周庆林老师介绍,南京大学从事高性能计算方面的建设始于1980年天文系的应用需求。随着科学技术以及教育需求的提升,各个院系也相继开始购买服务器解决自己的计算需求。但是各个院系由于成本、人力等原因自己建设科研教学用高性能计算节点过于浪费,且不符合资源利用最大化的需求。因此,在985工程二期的项目中,南京大学拨出了专门款项购置和更新全校所需的共享大型计算设备,力求为全校理科院系提供更强大的计算能力。
  南京大学高性能计算中心也因此孕育而生。在论证中南京大学的专家组一致认为,作为一个高性能计算中心,需要为科研计算提供两类设备:一类为共享内存型SMP或CCNUMA架构小型机;另一类为x86架构机架或刀片服务器,提供通用计算。


  但是到了2005年左右,x86架构高性能计算集群开始升温,大大动摇了传统共享内存模式的小型机地位。因此,南京大学打算做小规模的小型机,另一部分做x86集群——但是有两个问题:第一是机房选址问题,第二是到底选择什么样的x86服务器。
  周庆林老师表示,当时再机房选址时主要考虑了两个方面的问题:1、机房的承重问题,由于每个机架塞满服务器之后有数吨重,建设在高楼层需要对楼层进行加固,因此最终选择了建设在一楼。2、机房的制冷和走线问题,南京大学当时选择了物理系1层做数据中心机房,但是问题在于电力配给不够,考虑到增容需要对楼宇进行改造,因此最后选择在天文系的楼宇建设机房。
  机房选址的问题解决之后,究竟选择机架服务器还是刀片服务器做高性能计算中心的计算节点呢?周庆林老师表示,当时专家组也经过了一些讨论,并结合学校有些院系的使用经验,最终选择了刀片服务器。据周老师介绍,刀片服务器至今已经经过了几代的发展,日趋成熟。而机架服务器相对来说存在布线、管理较复杂的问题。
  南京大学高性能计算中心从选用IBM HS22刀片服务器以来至今,没有出现过任何计算节点的问题,稳定性方面不弱于机架服务器(甚至更好)。散热方面,目前高端刀片机箱由于计算密度高,计算资源集中,因此只要做好冷热通道就能很好的解决散热效率,满足系统需求(第三节有机房的具体介绍,会着重介绍散热)。
  2、南京大学高性能计算中心架构揭秘
  确定了选择刀片服务器之后,通过招标南京大学选择了IBM BladeCenter HS22刀片服务器作为高性能计算系统的计算节点。整个系统由10个登陆节点,4个管理节点,54TB高速并行存储、128TB SAN架构存储以及4x Infiniband全线速网络、千兆作业调度管理网络等构成。


▲南京大学高性能计算中心系统架构图


  据周老师介绍,全套系统由402片HS22刀片服务器构成,每节点12GB内存,2颗英特尔至强5500系列处理器(主频2.66GHz,8MB Cache),20Gb Infiniband HCA卡。其中有10片HS22刀片服务器用作登陆节点,每节点24GB内存,4Gb光纤卡,20Gb Infiniband以及千兆网卡。另有30台刀片机箱与上述计算节点配套,拥有16口Infiniband交换模块、六口千兆交换机和两个百兆管理网口。
  存储和管理方面,南大高性能计算中心选择了20台IBM x3650做存储节点,每节点配置32GB内存,20Gb Inifiniband卡,6块450GB 15000转SAS盘,共54TB组成并行存储系统,连续读写I/O大于每秒6GB。另有一台IBM DS3000 SAN架构官仙共享存储系统共128TB容量容量,配备16GB Cache,两个8口光纤卡,连续读写带宽大于每秒2GB。此外,还有一台x3550用作集群管理监控节点,3台x3650用作管理和作业调度节点。
  网络交换方面,周老师介绍说他们采用了两台288口20Gb 4x Infiniband交换机(当时还没有成熟的40Gb Infiniband交换设别),组成全线速无阻塞并行计算网络。此外还有四台4口万兆上行48口BNT的交换机用作作业调度和管理。


▲南京大学高性能计算系统逻辑架构图


  对于刀片服务器的散热和供电是重中之重,南大高性能计算中心采用了4台90千瓦制冷量的艾默生Libert Pex机房精密空调,120千瓦UPS拥有96节汤式100AH电池,可在断电的情况下维持数据中心1小时时间,足够工作负载暂停和系统正常关闭。此外,南京大学高性能中心还配备了三个配电柜,提供500KVA机房电力增容,一套七氟丙烷气体消防灭火系统为机房提供消防保障。
  3、图解南京大学高性能计算中心


▲走进高性能计算中心的机房,首先可以看到外侧监控人员的坐席


▲通过监控软件,外面的管理员可以轻松的了解目前设备的工作情况,包括温度、供电、机房视频监控等


▲周庆林老师向我们展示了管理平台的功能之一:每天向手机发短信汇报目前机房的状况,一旦遇到问题也会立刻发短信通知到指定的手机。


▲机房内是摆放整齐的机柜,可以看到上面用玻璃从机柜正中封死了机房后部和前部,这样做的好处是隔绝了冷热通道——空调的冷风从下面(架高60cm\)送到前部,被机柜风扇吸入排出到后面直接送给空调。封死之后冷热通道彻底隔绝,大大提升了散热效率。


▲打开机架,可以看到IBM HS22刀片服务器,这个机柜比较特殊,可以看到上面的那个刀片机箱只插了10个刀片——这既是我们前文提到的管理登陆节点,而下面和旁边的其他刀片则插满了14个计算刀片


▲IBM x3650服务器用作并行存储,为实时计算的数据调用提供了一个缓冲(前端是刀片,后端是SAN)


▲IBM DS3000 SAN负责后端存储


▲两台288口20Gb 4x Infiniband交换机


▲如此多的Infiniband连接线,码放的非常整齐


▲机房的消防设施


▲七氟丙烷灭火系统的储气罐——有毒,可窒息


▲96组UPS电池柜一角

 楼主| 发表于 2011-2-13 18:27:56 | 显示全部楼层
不久前,南京大学高性能计算机系统顺利通过验收,开始正式对全校开放服务。在前期的试运行中,该计算机系统被证明性能稳定可靠,计算效率很高,得到广大测试用户的一致好评。在 “2009年中国高性能计算机性能TOP100排行榜”中,南京大学高性能计算机系统获得综合性能全国排名第七,在全国高校系统“科学计算/教育”领域中排名第一。
  在高性能计算领域动辄数千万乃至上亿元投入的情况下,是什么原因能够让投资仅仅二千万元建成的南京大学高性能计算系统能够取得如此令同行刮目相看的骄人业绩,日前,记者有幸走进了南京大学高性能计算中心而眼见为实。
  选择x86刀片服务器集群
  南京大学一向以严谨务实的治学作风著称于世,南京大学高性能计算中心秉承了这样优良传统,在高性能计算项目建设上也得到充分的体现。
  “因为应用不同而导致需求也不尽相同,作为主要服务于高校内部的公共高性能计算机构来说,我们从实用的角度出发,经过讨论并结合实际使用经验,最终决定采用x86刀片服务器集群。” 南京大学高性能计算中心主任周庆林教授认为:“刀片服务器经过几代的发展,目前技术上已经比较成熟稳定。与机架式服务器相比,刀片服务器更易于管理,在更小的空间里提供更多的处理能力,而且花费也更少,更节省空间,机房布线简便。从实际运行情况看,目前刀片服务器集群系统运行稳定可靠,系统运行效率在70-80%左右。”

图一:南京大学高性能计算中心主任 周庆林教授


  据介绍,2007年之前,南京大学理科几个相关院系都拥有自己的小型集群,但是随着计算需要的增加,各系都在考虑购买服务器进行扩充,学校领导考虑到应当资源利用最大化,避免重复建设的浪费,为此,在985工程二期的项目中,专门拨出了二千万元在扩充现有设备基础上建立南京大学高性能计算中心,统一为全校各系的计算需求服务。当时,也正逢x86服务器集群兴起之时。集群计算大大降低了高性能计算的门槛,也改变了目前国内高性能计算应用的状况,尤其是近年来, x86服务器集群则因系统造价比较低,性价比突出等优势逐步成为用户的一种普遍的选择,但是,在稳定性和可靠性方面还令用户存在一些顾虑。2009年,正好赶上IBM公司最新推出了基于英特尔Nehalem架构至强5500的IBM BladeCenter HS22刀片服务器,南京大学经过严格的招标最终选择了IBM BladeCenter HS22刀片服务器作为高性能计算系统的计算节点,该系统共有412片HS22刀片服务器,其中有10片HS22刀片服务器作为登陆节点,402片作为计算节点, 由4X Infiniband 20Gb 高速网络进行连接,同时拥有高速50TB的并行文件系统和100TB的存储容量。
  谈到IBM BladeCenter 刀片服务器集群的实际运行情况,周教授表示:“与前一代产品相比,可谓是天壤之别,尤其在噪音方面。前一代产品后面用的是消音器,因而可知产生的噪音非常大,而现在风扇设计得很合理,噪音比原来小了非常多。目前系统机器运行相当稳定。”
  据透露,南京大学在前期测试中显示,VASP和Espresso是两个用来模拟物质在高温高压状况下物理性质变化的软件,经过测试发现,VASP在至强5500平台上可以获得97%性能的提升,而使用Espresso也可以获得至少51%的性能提升。英特尔创新的Nehalem架构的至强5500赋予IBM BladeCenter HS22具有突破性计算速度,与前代产品相比,经过全面革新的HS22的内存提高了两倍,每分钟能够处理的交易量翻了一番。在将原有的机架式和刀片服务器向HS22刀片服务器迁移时,客户可以实现高达11:1的整合比,同时可以节省超过93%的能源成本。IBM还赋予了HS22可运行多种负荷,能够提供出色的性能、灵活的配置选项和简单的管理。此外,IBM BladeCenter HS22还通过重新调整了内存,CPU和硬盘的位置来获得更高的散热效率。
  注重系统设计的平衡
  “在系统设计时不能够只追求CPU的性能,更应该要考虑到网络,存储,机房等等整体系统的设计。” 周庆林教授深有感触地告诉记者:“对于我们用户来说,并不是对某个厂家的所有产品都非常了解,我们在招标时要求各个厂家拿出各自针对我们计算需求的完整设计方案。经过几轮评估认证,最后我们一致认为IBM的方案做得最好,设计方案非常合理,最能够满足南京大学的计算需求。从目前的运行状况看,超过了南京大学的预期。”
  据介绍,IBM对南京大学的高性能计算项目十分重视,在设计南京大学高性能计算中心的集群时,充分考虑到了系统的平衡性,这主要体现在以下几方面:1,选择采用了基于当时最先进的Intel 5500系列CPU的HS22平台,HS22的单节点计算效率高达95%,较前一代产品的性能提高60%;2,在网络上选择高带宽低延迟的 20Gb IB,并且使用2台288口的大交换机方案,而其他厂商多采用多台36口小型交换机堆叠的方案(成本较低,但是性能差)。3,在存储方面,采用IBM GPFS并行文件系统搭建了高低性能两个独立的存储系统,分别用于高速并行临时文件存储和用户资料结果存储,高速部分读写达到6GB/s 54TB 裸容量, 低速部分读写达到2GB/s 128T 裸容量,以保证存储利用的合理性和可靠性要求;4,从硬件的管理,软件的管理,直到作业调度,IBM提供了从底层硬件到上层应用管理的解决方案;5,在机房建设方面,IBM设计了一个冷热散热通道隔离的先进的高性能计算机房;6,在集群管理方面,IBM提供了全套集群管理方案;7,作业调度管理方面,采用了业界最好的platefarm公司的 LSF 作业调度管理软件,使管理员能够轻松实现远程集群管理与监控,对于用户来说,可以通过各种方法(包括手机),实现作业提交与过程监控,大大简化了使用者与管理者的操作。“一个集群是由软件,硬件,和使用者共同构成的系统,IBM选择在客户预算下最平衡的设计。”IBM公司南京分公司系统与科技事业部项目负责人荣瑜先生表示:“我们综合考虑了计算性能,网络带宽延迟,存储性能,系统管理以及机房建设等各个方面,为南京大学设计了这一套性能平衡,稳定易维护的的高性能计算平台。凭着在高性能计算领域的丰富经验,最终经过专家的精心调试,整个系统各项性能完全满足甚至超越了南大的要求。"
  周庆林教授表示,正是考虑到了系统整体的平衡设计,在系统集群调优测试过程中,IBM专家团队充分发挥其技术与经验优势,整个集群的linpack测试效率达到92%, 是目前国内发布的top100 集群中效率最高的,大大超过了设计要求的77%的效率,从当初期望的10万亿次提升到最后的34万亿次浮点运算每秒,由此成为目前中国教育行业装机的计算能力最强的集群。"
  “除了机器性能要好之外,品牌非常重要。”周庆林教授最后强调了售后服务的重要性:“IBM团队的上门服务非常及时,能够为用户长远着想。在网络配置方面,一开始出于性价比的考虑,本想一半用千兆网,另一半用InfiniBand,最后IBM帮着全部都采用了InfiniBand。”
  此外,南京大学高性能计算中心非常重视机房的散热与节能,记者在干净整洁的机房中看到,中心采用了4台90千瓦制冷量的艾默生机房精密空调,120千瓦UPS拥有96节汤浅100AH电池,可在断电的情况下维持1小时时间。每天早晨机房情况将以短信形式发到周教授的手机上,一旦出现意外情况,机房会立刻启动相应措施。
  目前,南京大学高性能计算中心已经正式挂靠在南京微结构国家实验室,并成立专门的管理委员会对该高性能计算机系统进行管理。南京大学高性能计算中心的正式开放运行将有助于更好地建设和管理南京大学高性能计算环境,推进大规模科学计算工作的开展,促进相关领域的国际合作,提高南京大学乃至全国高性能计算研究工作的水平。

图二:机房空调的冷风从地板下面送到前部,被机柜风扇吸入后再排出到后面的空调里,冷热通道隔绝后大大提升散热效率。

图三:机房的状况每天都会以短信的形式发到周教授的手机。



  记者点评
  在体系结构方面,高性能计算经历了从向量机到SMP,NUMA,CC-NUMA,以及集群计算,集群计算大大降低了高性能计算的门槛,近几年来,x86服务器的集群又以成本低和出色的性价比而逐步成为用户的普遍选择。南京大学高性能计算中心的成功运行进一步证明了x86集群的良好应用前景,进一步增强了用户对x86集群在稳定性和可靠性方面的信心。
  在采访中,周庆林教授的一句肺腑之言让记者颇为感动:“老百姓的钱要花在刀刃上。”诚然,与一些有政府投资背景的“形象工程”相比,南京大学高性能计算中心的系统总投入仅两千万元。毫无疑问,南京大学高性能计算中心的系统不仅从技术上而言对高校领域具有推广价值,更重要的是在设计理念方面对整个高性能计算领域都有借鉴作用。
  事实上,不仅在教育领域,在其他行业同样具有推广价值。中国石化石油勘探开发研究院南京石油物探研究所高级工程师赵改善教授表示,基于英特尔至强5500 系列处理器的服务器系统正在改变石油天然气行业处理问题的方式,能够提高处理地球物理问题的复杂程度和大小,还能在更短的时间内获得更高的计算精确度。
  最后值得一提的是,南京大学在高性能计算方面具有一定的人才优势,这也是其成功的重要因素之一。南京大学高性能计算系统主要采用Linux,老师和学生对Linux系统都非常的熟悉。因此,从实际应用情况出发,根据自己不同的需求和资源基础而选择最适合自己的发展模式,这才是最根本的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2024-4-25 20:26 , Processed in 0.098084 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表