曙光GPGPU高性能计算解决方案.doc
- 文档编号:244288
- 上传时间:2023-04-28
- 格式:DOC
- 页数:60
- 大小:5.58MB
曙光GPGPU高性能计算解决方案.doc
《曙光GPGPU高性能计算解决方案.doc》由会员分享,可在线阅读,更多相关《曙光GPGPU高性能计算解决方案.doc(60页珍藏版)》请在冰点文库上搜索。
曙光GPGPU高性能计算
解决方案
曙光信息产业(北京)有限公司
2010年5月目录
1. 曙光方案优势 4
1.1. CPU和GPU计算能力均衡设计 4
1.2. 采用水冷散热设计 4
1.3. 采用低延迟Infiniband设计 5
1.4. 配置了丰富的集群软件 5
1.5. 专业的高性能计算厂商 5
2. 曙光公司与中国高性能计算 7
3. GPGPU的应用及其产品 9
4. 曙光百万亿次GPGPU高性能计算解决方案 12
4.1. 总体设计原则 12
4.2. 方案配置 13
4.2.1. 系统总体布置图 13
4.2.2. 方案一(260T) 14
4.2.3. 方案二(193T) 15
4.3. 曙光GHPC1000高性能计算机 17
4.3.1. 概述 18
4.3.2. 特性与优势 19
4.3.3. 技术规格 20
4.4. 计算系统 21
4.4.1. 概述 21
4.4.2. 技术特色 21
4.4.3. 技术规格 23
4.5. 网络系统 25
4.6. 存储系统 27
4.7. 软件系统 31
4.7.1. Gridview服务器综合管理系统 31
4.7.2. PowerConf服务器节能软件 38
5. 机房建设方案 41
5.1. 水冷机柜方案 41
5.1.1. 概述 41
5.1.2. 高效节能的水冷机柜系统 42
5.1.3. 水冷机柜产品介绍 43
5.1.4. 冷机柜解决方案 46
5.1.5. 机房物理环境要求及水冷机柜系统设备参数 48
5.2. 风冷机柜方案 50
5.2.1. 机柜尺寸和摆放要求 50
5.2.2. 机房环境要求 52
5.2.3. 供电和环境要求 53
6. 用户服务方案 54
6.1. 售后服务承诺 54
6.1.1. 概要 54
6.1.2. 保修期限和服务方式 54
6.1.3. 服务流程及响应时间 55
6.1.4. 有偿服务收费标准 57
6.2. 技术支持及服务项目 58
6.2.1. 硬件升级服务项目 58
6.2.2. 系统软件支持服务项目 58
6.2.3. 应用软件及解决方案支持服务项目 59
6.2.4. 应用开发和移植支持服务项目 59
7. 培训方案 60
7.1. 概述 60
7.2. 培训目标 61
7.3. 培训教材 61
7.4. 项目实施前培训 61
7.4.1. 培训方式 61
7.4.2. 培训地点 62
7.4.3. 培训人数 62
7.4.4. 培训内容 62
7.4.5. 培训时间 63
7.5. 现场培训 64
60
1.曙光方案优势
1.1.CPU和GPU计算能力均衡设计
曙光GHPC1000高性能计算平台采用通用CPU和专用GPU均衡设计,既保证了GPU的处理性能,又兼顾了通用CPU的计算能力。
既保证了适合GPU的高并行度计算应用的需求,同时也保证了非高并行度应用和尚未进行GPU移植的应用需求。
GHPC1000的每个计算节点配置1~2颗64位四核心处理器和1块GPU处理卡。
它既可作为GPU高性能计算平台,又可作为通用CPU计算平台,能完成所有的普通集群系统可完成的应用。
1.2.采用水冷散热设计
GHPC1000可采用水冷散热设计。
相比于传统的风冷散热系统,水冷散热系统具有如下优势:
1、节能,绿色环保,降低了使用成本
采用全封闭设计和高效热交换系统,大大降低对制冷系统的要求,降低了制冷系统的耗电量。
另一方面,计算设备在相对较低的温度下运行也降低了其功耗。
2、提高系统稳定性,提高了高性能计算平台的使用寿命
采用水冷散热系统以后,使得系统一直保持在良好的工作温度(入口温度在14℃),并且温度变化率低。
这样大大提高对服务器、存储、交换机、GPU卡等精密电子设备的稳定性,同时有利于延长其使用寿命。
3、提高了计算密度
目前散热是限制计算密度重要因素,采用水冷散热系统就能增加单位空间的散热能力,提高计算密度。
4、采用全密闭设计,降低了机房噪音和辐射。
5、采用水冷散热系统,机房无需再为该设备配置空调等其他散热设备,节省了机房建设成本。
6、水冷散热方式在技术上更为先进,是高性能计算系统和数据中心的发展趋势
同时,GHPC1000采用的水冷散热系统,对机房建设并没有过高的要求,一般的机房大都能满足要求。
1.3.采用低延迟Infiniband设计
采用GPU计算以后,大幅度的提升了计算性能,但同时对于网络的压力也大幅度提升。
为保证网络和计算的均衡,提升系统的整体实际性能。
曙光GHPC1000采用Infiniband专用高速网络,任何两点之间的网络带宽达双向20Gb/s。
同时采用最先进的ConnectX技术,使其点到点的延迟为1.26us。
网络高带宽尤其是网络的低延迟对于提升HPC应用的性能是至关重要的。
1.4.配置了丰富的集群软件
GHPC1000配置了Gridview集群管理系统,通过类Windows的管理模式能轻松监控、管理整个集群系统。
同时配置为高性能计算设计的PowerConf节能系统,能大幅降低系统能耗
1.5.专业的高性能计算厂商
从93年的曙光一号到今天的曙光5000,从每秒6.4亿次到每秒230万亿次,曙光一直致力于高性能计算机的研发、生产和销售。
目前曙光每天生产、销售一套集群系统,占据着中国高性能计算机30%以上的市场份额。
在2005~2008年中国TOP100排行榜中,曙光连续四年为列国产第一。
同时曙光拥有一支专业的、以首席工程师为核心的技术服务团队,他们不仅仅能解决硬件、系统问题,同时能为用户提供各个应用领域的应用级服务,包括石油、材料计算、计算化学、分子动力学、有限元计算、流通力学、气象等应用的调试、移植、优化。
2.曙光公司与中国高性能计算
曙光信息产业有限公司成立于1995年6月,是一家在科技部、信息产业部、中科院大力推动下,以国家“863”计划重大科研成果为基础组建的高新技术企业。
它以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心为技术依托,拥有强大的技术实力。
我国著名计算机专家、中国工程院院士、中科院计算所所长李国杰任董事长。
曙光系列产品的问世,为推动我国高性能计算机的发展做出了不可磨灭的贡献。
胡锦涛总书记在2006年1月全国科技大会上,“点”出了新中国成立以来特别是改革开放以来,我国广大科技人员所取得的7大“标志性”重大科技成就,在7大标志性科技成就中,高性能计算机位列第五。
曙光高性能计算机不仅代表着中国计算机最高水平,也为“‘两弹一星’、载人航天、基因组研究”等其他标志性科技成就做出了重要贡献。
2004年6月,每秒运算11万亿次的超级计算机曙光4000A研制成功,落户上海超算中心,进入全球超级计算机前十名,从而使中国成为继美国和日本之后,第三个能研制10万亿次高性能计算机的国家。
2008年11月,在“中国高性能服务器Top100”排行榜中,曙光更上一层楼,以每秒运算230万亿次曙光5000A雄踞榜首,并再次跻身全球超级计算机前十名,带领中国的高性能运算跨越百万亿次门槛。
曙光高性能计算机连续12年稳居国产高性能计算机市场第一,拥有国产高性能70%以上的份额,并在高性能集群领域实现了国产机对进口产品的超越。
曙光高性能计算机以技术先进、性能卓越、服务优良见长,曾获“国家科技进步一等奖、二等奖”、“中科院科技创新特等奖”、“2001、2003、2004中国十大科技进展”等多项国家级殊荣。
曙光公司以推动高性能计算在中国的发展和应用为己任,为国内的高性能计算用户提供全面的服务,扶植用户的应用,为用户提供全面、定制化的培训,帮助用户把高性能计算机用好,发挥出真正的作用和效益。
3.GPGPU的应用及其产品
GPGPU(GeneralPurposeGPU)是指利用图形卡来进行一般意义上的计算,而不是传统意义上的图形绘制。
时至今日,GPU已发展成为一种高度并行化、多线程、多核的处理器,具有杰出的计算功率和极高的存储器带宽,如图所示。
CPU和GPU的每秒浮点运算次数和存储器带宽
CPU和GPU之间浮点功能之所以存在这样的差异,原因就在于GPU专为计算密集型、高度并行化的计算而设计,上图显示的正是这种情况,因而,GPU的设计能使更多晶体管用于数据处理,而非数据缓存和流控制,如图所示。
GPU中的更多晶体管用于数据处理
更具体地说,GPU专用于解决可表示为数据并行计算的问题——在许多数据元素上并行执行的程序,具有极高的计算密度(数学运算与存储器运算的比率)。
由于所有数据元素都执行相同的程序,因此对精密流控制的要求不高;由于在许多数据元素上运行,且具有较高的计算密度,因而可通过计算隐藏存储器访问延迟,而不必使用较大的数据缓存。
数据并行处理会将数据元素映射到并行处理线程。
许多处理大型数据集的应用程序都可使用数据并行编程模型来加速计算。
在3D渲染中,大量的像素和顶点集将映射到并行线程。
类似地,图像和媒体处理应用程序(如渲染图像的后期处理、视频编码和解码、图像缩放、立体视觉和模式识别等)可将图像块和像素映射到并行处理线程。
实际上,在图像渲染和处理领域之外的许多算法也都是通过数据并行处理加速的——从普通信号处理或物理仿真一直到数理金融或数理生物学。
在上述领域,GPGPU已经获得了成功的应用,并取得了令人难以置信的加速效果。
GPU的应用加速效果
GPGPU得到了业界的广泛支持,NVIDIA、AMD、INTEL等都对芯片市场的微妙变化和GPGPU的技术发展前景都极为关注,并展开了激烈的技术竞赛。
NVIDIA最早提出了GPGPU概念。
2007年2月,NVIDIA正式发布了CUDA架构(ComputeUnifiedDeviceArchitecture统一计算设备架构),这也是NVIDIA确定的GPGPU产品的正式名称。
CUDA是GPGPU产品的一个新的基础架构,一个完整的GPGPU解决方案,它采用C语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案;它提供了硬件的直接访问接口,而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。
CUDA是世界上第一个针对GPU的C语言开发环境的GPGPU产品,其工具集的核心是一个C语言编译器,利用它可以最大限度地提升流处理单元浮点运算能力。
CUDA架构的成功尝试,为业界GPGPU的研发提供了宝贵的借鉴。
早在2006年收购ATI之初,AMD就做出了一个重大举动,这就是它所发布的GPGPU“StreamProcessor”(流处理器),率先将GPGPU技术引入普通应用阶段。
AMD也提出了以Fusion为研发代号的硅芯片整合计划。
Fusion提供基于融合处理器的GPGPU平台融合,二个Fusion处理器一起连接可以达到并行GPU的关系,更适合CPU的代码将在Fusion处理器当中的CPU部分被执行,而更适合GPU的代码也将在Fusion处理器的GPU部分被执行。
作为全球最大的CPU供应商,Intel早已经敏锐地意识到,GPU通用计算将给PC带来革命性的变化。
Intel采取了与NVIDIA以GPU为核心的截然不同的研发理念,将GPGPU纳入了CPU的发展轨道。
业界普遍对Intel首款Larrabee芯片充满了期待。
Larrabee在硬件设计上,采用微内核设计,内核逻辑采用顺序执行结构(InOrder),可同时执行4个线程。
在指令体系上,Larrabee最大的优点就是与IA架构(X86)处理器的互换性,它使用经过调整的X86指令,使现行X86计算程序可以直接被Larrabee运算执行。
GPGPU的发展前景一片光明,也必将在更多的领域内得到更广泛的支持和应用。
4.曙光百万亿次GPGPU高性能计算解决方案
4.1.总体设计原则
u先进性
在方案中应采用最新的GPU技术、CPU技术和服务器设计技术,使系统的设计在整个行业内具有一定的前瞻性。
u高性能
系统的GPU处理能力应达到100-200TFLOPS,同时CPU的处理能力也要兼顾,节点之间应采用高性能Infiniband连接,以提高并行运算的效率。
u高可扩展性
方案应具有很好的可扩展性,使整个系统的规模可以不断升级,满足未来几年技术和应用发展的需要。
u高密度
系统应具有较高的计算密度,占地面积不宜超过5个机柜,以免给机房建设造成太大的压力。
u低功耗
系统应具有较低的功耗,减少散热系统的需求和未来运行维护的费用。
4.2.方案配置
4.2.1.系统总体布置图
系统总体拓扑
水冷机柜布置示意图
4.3.曙光GHPC1000高性能计算机
曙光GHPC1000,开启高性能计算的创新时代
4.3.1.概述
曙光GHPC1000,开启高性能计算的创新时代
由于GPU具有较高浮点计算性能的特点,曙光GHPC1000高性能计算机使用GPU作为主体计算资源,将图形处理器引入到高性能计算领域。
GHPC1000高性能计算机同时配置CPU和GPU,系统支持CPU和GPU的混合计算。
GHPC1000系统具有较高的计算密度,可在4个机柜内实现超过260Tflops(单精度)的计算能力,同时具有良好的可扩展性,能够轻松扩展到千万亿次。
体系架构
曙光GHPC1000采用高密度集群架构,是基于通用CPU+GPU的高性能集群系统。
GHPC1000采用曙光天阔A620r-T服务器为计算节点;计算网络采用高带宽、低延迟的Infiniband4×DDR网络,单向速率为20Gbps;管理网络则采用千兆以太网;基础架构子系统可采用曙光42U标准风冷机柜或曙光智能高效水冷机柜系统;管理软件采用曙光Gridview大型机监控管理系统。
计算节点
计算节点采用曙光天阔A620r-T服务器,为业内领先的单机双node(Twins)的标准机架式服务器,在2U的空间内提供4个AMD四核高性能处理器、2块高性能GPU卡、8块高性能SSD硬盘。
单节点GPU理论峰值最高可达4.8Tflops。
曙光天阔A620r-T服务器集成2个20Gbps的Infiniband网卡和4个千兆以太网卡,可以较好满足节点的各种互联需求。
互联网络
曙光GHPC1000互联网络方案灵活多样,可以根据客户的应用需求配备适合的互联网络;可选的方案包括:
全无阻塞或有阻塞的Infiniband网络,全无阻塞或有阻塞的千兆Ethernet网络和FCSAN网络,从而以多种方式来构建系统的计算网络、存储网络和管理网络;
Gridview是曙光GHPC1000的核心组件之一
Gridview大型机监控管理系统是继承了曙光DCMM2、DCAS等监控管理产品的主要功能和技术特色,并增加多项优秀功能开发而成的集群监控管理系统;
基于B/S架构的Gridview提供统一的集中管理和监控平台,主要实现了集群状态监控、告警管理、统计报表、集群管理、系统配置、作业调度、机房温湿度的远程监控等功能,使得系统使用和维护人员可远离机房环境。
可选水冷和风冷两种散热模式
GHPC1000可采用传统的风冷散热模式。
曙光天潮风冷机柜采用业内领先的铝镁合金整体型材结构设计,具有强度高、重量轻、可靠性高以及模块化、拆装便捷等特点;
GHPC1000也可选用更为先进的水冷散热模式。
曙光水冷机柜系统采用水作为冷媒,由外部水冷机组提供冷却水经由管道输送到机柜内的热交换设备,冷却水在热交换设备内与服务器产生的热空气进行高效率的热交换,可以有效解决高密度服务器所产生的热量。
存储系统方案多样
曙光GHPC1000可以根据客户的应用需求配备存储系统;既可以配置简单易用的DAS存储,又可以构建高性能的FC或InfinibandSAN存储。
存储系统配合高性能文件系统,从而实现高性能的系统存储和I/O访问;
4.3.2.特性与优势
功能特性
优势
高性能
l支持CPU和GPU的混合计算,更有利于GPU计算性能的发挥
l系统性能达到数百万亿次,可以扩展到千万亿次
l高带宽、低延迟的Infiniband网络和高性能存储系统,保证了系统的高性能和高效率
高密度
l可在4个机柜内聚合200万亿次的计算能力
l计算节点采用Twins结构,可以在2U空间内提供4个AMD四核高性能处理器、2块高性能GPU卡、8块高性能SSD硬盘。
超低功耗
l计算节点采用业界领先的单机双Node的设计,提高了系统的能耗比;
l全系统SSD存储设计,比传统硬盘节能50%;
l水冷机柜系统的采用,比常规空调制冷节约30%能耗;
l第一套GHPC1000系统的单精度计算能力达到201.6Tflops,而能耗仅为80KW(含冷却系统)
可选高效冷却系统
l曙光水冷机柜系统的使用,降低了高性能计算系统对客户机房的要求,同时提高了冷却效率。
水冷系统的设计实现了水电分离,保证了系统的安全性;
l水冷机柜单机柜制冷能力可达20KW;
l曙光水冷机柜系统采用大量自动控制系统,有效保证机柜内的服务器设备安全。
水冷机柜可根据机柜内设备负载情况自动调解制冷能力,实时保证冷却与负载相匹配。
自主创新的管理软件
l自主开发的Gridview监控管理系统,为集群系统综合管理提供统一的集中式监控平台,具备可扩展性、集成性、可靠性和易用性,提供对各种商用、自行研发管理工具的集成接口,从而满足同时对分布式广域\局域网高效能百万亿次可扩展计算机的环境、硬件、软件等各方面进行监控的需求
超广泛应用
l曙光GHPC1000系统引领了HPC新模式,可以广泛应用于科研、教育、石油勘探、气象预报、生物医药等各个领域
4.3.3.技术规格
曙光GHPC1000系统主要包含以下部分:
计算节点
曙光天阔A620r-T
其它可选节点
曙光全系列机架式服务器、刀片服务器
存储
曙光全系列存储产品
网络
可配置千兆以太网,Infiniband网络
系统软件
曙光Gridview软件(曙光大型机监控管理系统);
机柜及机柜内部电源系统
可选曙光天潮风冷机柜或者水冷机柜;
可选各种高性能计算相关软件
可选曙光SKVM系统
4.4.计算系统
计算系统采用曙光天阔A620r-TGPU服务器进行构建。
4.4.1.概述
曙光天阔A620r-T服务器是一款性能卓越,稳定可靠的GPU计算节点,曙光天阔A620r-T兼顾了CPU计算密度和GPU计算密度的双高搭配,最大限度地满足了客户的应用需求。
A620r-T采用独具特色的机箱设计,在传统标准2U的机箱中采用业界领先的单机双Node的设计,在标准的2U机箱内,可以提供高达4个AMD四核高性能处理器、2片高性能GPU卡、8块高性能SSD的计算能力。
同时系统配合先进的2.5寸SSD作为数据存储,在系统功耗、可靠性、性能方面满足了客户对本地存储的性能需求。
A620r-T服务器作为GPGPU计算节点时,除了本身所具有的超高计算性能以外,在系统互联部分,节点本身支持Infiniband互联架构,每个节点集成了2个速率达20Gbps的Infiniband控制器,配合双千兆以太网卡,提供了高速的系统互联能力。
曙光天阔A620r-T服务器兼容目前的32位及64位应用,特别是面向新兴的GPGPU计算领域,为用户从32位应用向64位应用平滑过渡、保护投资提供便利,同时针对仿真模拟、动画制作以及CG渲染、分子化工等领域的超大计算量的应用,更可以发挥GPU计算的优势。
4.4.2.技术特色
曙光天阔A620r-T服务器系统支持AMD最新推出的2000系列皓龙处理器(四核),在1个芯片上集成了两个或四个处理核心,每个处理器核心各自拥有完全独立的执行单元及L1、L2Cache,巴塞罗那的四个处理器核心共享2M的L3Cache,上海的四个处理器核心共享6M的L3Cache;各个核心通过Crossbar连接到DDRII内存控制器,实现共享内存资源。
曙光天阔A620r-T服务器支持2个扩展接口,支持2个PCI-E×16接口,支持高速GPU卡。
A620r-T使用的芯片组支持SATARAID功能,支持SATARAID0,1,0+1,5,满足客户的大容量安全存储要求。
集成USB2.0高速接口。
曙光天阔A620r-T服务器支持8个热插拔SATA硬盘,以满足不同行业对存储空间的苛刻要求。
曙光天阔A620r-T服务器集成2个20Gbps的Infiniband控制器和4个千兆以太网卡,可以充分满足高速、大数据量、低延迟的节点互联需求。
功能特性
优势
高CPU性能
采用NVIDIAMCP55Pro高性能芯片组,支持HyperTransport连接。
每Node最大支持2颗AMDOpteron2200系列双核处理器,2×1MB二级缓存。
每Node最大支持2颗AMDOpteron2300系列四核巴塞罗那处理器,4×512KB二级缓存,2MB共享三级缓存。
每Node最大支持2颗AMDOpteron2300系列四核上海处理器,6MB共享三级缓存。
每Node支持DDR2533/667内存,最高可支持64GB内存。
高速互联
系统集成2个高速Infiniband控制器,端口速率高达20Gbps
系统集成4口千兆以太网,RJ45端口,
高GPU性能
系统每Node支持一块单或双GPU核心的GPU加速卡,每个2U节点的GPU理论峰值最高可达4.8T。
(注:
GPU理论峰值会因GPU加速卡不同而有不同)
高可靠性
支持电源状态记忆功能,当外部供电系统出现故障而使服务器掉电时,系统将在供电系统恢复正常以后自动开启,并继续提供服务。
无需系统管理员进行管理。
支持网卡冗余功能。
支持网络唤醒(WOL-WakeOnLan)功能
8MbFlashEEPROMBIOS,提供病毒保护功能
高级内存容错功能
板载SATA控制器支持RAID0,1,0+1,5
高性能智能散热风扇,并带有温度监控报警
4.4.3.技术规格
主机性能
系统架构单机双Node
处理器
每Node最大支持2颗AMDOpteron2000系列处理器/每2U最大支持4颗处理器
L2Cache(双核处理器)
1MBPerCore
L2&L3Cache(四核巴塞罗那处理器)
512KBL2CachePerCore,共享2MBL3Cache
L2&L3Cache(四核上海处理器)
512KBL2CachePerCore,共享6MBL3Cache
GPU
每Node支持1块单或双核心GPU加速卡/每机器最大支持2块卡
支持NVIDIATeslaC1060GPU卡(单精度933Gflops,4GBGDDR3SDRAM)
支持ATIFireStream9270GPU卡(单精度1.2Tflops,2GBGDDR5SDRAM)
芯片组
NVIDIAMCP55Pro
内存特性
支持DDR2400/533/667ECCRegistered内存,支持单条2G或4G的内存模组
内存容量
每机器最大支持32个DIMM插槽,(每个主板支持16个DIMM插槽)
硬盘
8个热插
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 曙光 GPGPU 性能 计算 解决方案