换一换

冰点文库 > 资源分类 > DOCX文档下载

预览

服务器硬件架构.docx

资源ID：16587399 资源大小：1.30MB 全文页数：43页
资源格式： DOCX 下载积分：5金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

服务器硬件架构.docx

1、服务器硬件架构服务器硬件架构从性能角度来看，处理器、内存和I/O这三个子系统在服务器中是最重要的，它们也是最容易出现性能瓶颈的地方。目前市场上主流的服务器大多使用英特尔Nehalem、Westmere微内核架构的三个家族处理器：Nehalem-EP，Nehalem-EX和Westmere-EP。下表总结了这些处理器的主要特性：Nehalem-EPWestmere-EPNehalem-EXNehalem-EX商业名称至强5500至强5600至强6500至强7500支持的最插座数2228每插座最大核心数4688每插座最大线程数8121616MB缓存 (3级)8121824最大内存DIMM数1818

2、32128在本文中，我们将分别从处理器、内存、I/O三大子系统出发，带你一起来梳理和了解最新英特尔架构服务器的变化和关键技术。一、处理器的演变现代处理器都采用了最新的硅技术，但一个单die(构成处理器的半导体材料块)上有数百万个晶体管和数兆存储器。多个die组织到一起就形成了一个硅晶片，每个die都是独立切块，测试和用陶瓷封装的，下图显示了封装好的英特尔至强5500处理器外观。图 1 英特尔至强5500处理器插座处理器是通过插座安装到主板上的，下图显示了一个英特尔处理器插座，用户可根据自己的需要，选择不同时钟频率和功耗的处理器安装到主板上。图 2 英特尔处理器插座主板上插座的数量决定了最多可支

3、持的处理器数量，最初，服务器都只有一个处理器插座，但为了提高服务器的性能，市场上已经出现了包含2，4和8个插座的主板。在处理器体系结构的演变过程中，很长一段时间，性能的改善都与提高时钟频率紧密相关，时钟频率越高，完成一次计算需要的时间越短，因此性能就越好。随着时钟频率接近4GHz，处理器材料物理性质方面的原因限制了时钟频率的进一步提高，因此必须找出提高性能的替代方法。核心晶体管尺寸不断缩小(Nehalem使用45nm技术，Westmere使用32nm技术)，允许在单块die上集成更多晶体管，利用这个优势，可在一块die上多次复制最基本的CPU(核心)，因此就诞生了多核处理器。现在市场上多核处理

4、器已经随处可见，每颗处理器包含多个CPU核心(通常是2，4，6，8个 )，每个核心都有一级缓存(L1)，通常所有的核心会共享二级(L2)、三级缓存(L3)、总线接口和外部连接，下图显示了一个双核心的CPU架构。图 3 双核心CPU架构示意图现代服务器通常提供了多个处理器插座，例如，基于英特尔至强5500系列(Nehalem-EP)的服务器通常包含两个插座，每个插座四个核心，总共可容纳八个核心，而基于英特尔至强7500系列(Nehalem-EX)的服务器通常包含八个插座，每个插座八个核心，总共可容纳64个核心。下图显示了更详细的双核处理器架构示意图，CPU的主要组件(提取指令，解码和执行)都被复

5、制，但系统总线是公用的。图 4 双核处理器的详细架构示意图线程为了更好地理解多核架构的含义，我们先看一下程序是如何执行的，服务器会运行一个内核(如Linux，Windows的内核)和多个进程，每个进程可进一步细分为线程，线程是分配给核心的最小工作单元，一个线程需要在一个核心上执行，不能进一步分割到多个核心上执行。下图显示了进程和线程的关系。图 5 进程和线程的关系进程可以是单线程也可以是多线程的，单线程进程同一时间只能在一个核心上执行，其性能取决于核心本身，而多线程进程同一时间可在多个核心上执行，因此它的性能就超越了单一核心上的性能表现。因为许多应用程序都是单线程的，在多进程环境中，多插座、多

6、核心的架构通常会带来方便，在虚拟化环境中，这个道理一样正确，Hypervisor允许在一台物理服务器上整合多个逻辑服务器，创建一个多进程和多线程的环境。英特尔超线程技术虽然单线程不能再拆分到两个核心上运行，但有些现代处理器允许同一时间在同一核心上运行两个线程，每个核心有多个并行工作能力的执行单元，很难看到单个线程会让所有资源繁忙起来。下图展示了英特尔超线程技术是如何工作的，同一时间在同一核心上有两个线程执行，它们使用不同的资源，因此提高了吞吐量。图 6 英特尔超线程技术工作原理前端总线在多插座和多核心的情况下，理解如何访问内存和两个核心之间是如何通信的非常重要，下图显示了过去许多英特尔处理器使

7、用的架构，被称作前端总线(FSB)架构。在FSB架构中，所有通信都是通过一个单一的，共享的双向总线发送的。在现代处理器中，64位宽的总线以4倍速总线时钟速度运行，在某些产品中，FSB信息传输速率已经达到1.6GT/s。图 7 基于前端总线的服务器平台架构FSB将所有处理器连接到芯片组的叫做北桥(也叫做内存控制器中枢)，北桥连接所有处理器共享访问的内存。这种架构的优点是，每个处理器都可以访问其它所有处理可以访问的所有内存，每个处理器都实现了缓存一致性算法，保证它的内部缓存与外部存储器，以及其它所有处理器的缓存同步。但这种方法设计的平台要争夺共享的总线资源，随着总线上信号传输速度的上升，要连接新设

8、备就变得越来越困难了，此外，随着处理器和芯片组性能的提升，FSB上的通信流量也会上升，会导致FSB变得拥挤不堪，成为瓶颈。双独立总线为了进一步提高带宽，单一共享总线演变成了双独立总线架构(DIB)，其架构如下图所示，带宽基本上提高了一倍。图 8 基于双独立总线的服务器平台架构但在双独立总线架构中，缓存一致性通信必须广播到两条总线上，因此减少了总有效带宽，为了减轻这个问题，在芯片组中引入了“探听过滤器”来减少带宽负载。如果缓存未被击中，最初的处理器会向FSB发出一个探听命令，探听过滤器拦截探听，确定是否需要传递探听给其它FSB。如果相同FSB上的其它处理器能满足读请求，探听过滤器访问就被取消，如

9、果相同FSB上其它处理器不满意读请求，探听过滤器就会确定下一步的行动。如果读请求忽略了探听过滤器，数据就直接从内存返回，如果探听过滤器表示请求的目标缓存在其它FSB上不存在，它将向其它部分反映探听情况。如果其它部分仍然有缓存，就会将请求路由到该FSB，如果其它部分不再有目标缓存，数据还是直接从内存返回，因为协议不支持写请求，写请求必须全部传播到有缓存副本的所有FSB上。专用高速互联在双独立总线之后又出现了专用高速互联架构(Dedicated High-Speed Interconnect，DHSI)，其架构如下图所示。图 9 基于DHSI的服务器平台架构基于DHSI的平台使用四个独立的FSB，

10、每个处理器使用一个FSB，引入探听过滤器实现了更好的带宽扩容，FSB本身没多大变化，只是现在变成点对点的配置了。使用这种架构设计的平台仍然要处理快速FSB上的电信号挑战，DHSI也增加了芯片组上的针脚数量，需要扩展PCB路线，才能为所有FSB建立好连接。英特尔QuickPath互联随英特尔酷睿i7处理器引入了一种新的系统架构，即著名的英特尔QuickPath互联(QuickPath Interconnect，QPI)，这个架构使用了多个高速单向连接将处理器和芯片组互联，使用这种架构使我们认识到了：. 多插座和多核心通用的内存控制器是一个瓶颈;. 引入多个分布式内存控制器将最符合多核处理器的内存

11、需要;. 在大多数情况下，在处理器中集成内存控制器有助于提升性能;. 提供有效的方法处理多插座系统一致性问题对大规模系统是至关重要的。下图显示了一个多核处理器，集成了内存控制器和多个连接到其它系统资源的英特尔QuickPath的功能示意图。图 10 集成英特尔QPI和DDR 3内存通道的处理器架构在这个架构中，每个插座中的所有核心共享一个可能有多个内存接口的IMC(Integrated Memory Controllers，集成内存控制器)。IMC可能有不同的外部连接：. DDR 3内存通道在这种情况下，DDR 3 DIMM直接连接到插座，如下图所示，Nehalem-EP(至强5500)和W

12、estmere-EP(至强5600)就使用了这种架构。图 11 具有高速内存通道的处理器. 高速串行内存通道如下图所示，在这种情况下，外部芯片(SMB：Scalable Memory Buffer，可扩展内存缓存)创建DDR 3内存通道，DDR 3 DIMM通过这个通道连接，Nehalem-EX使用了这种架构。图 12 四插座Nehalem-EXIMC和插座中的不同核心使用英特尔QPI相互通信，实现了英特尔QPI的处理器也可以完全访问其它处理器的内存，同时保持缓存的一致性，这个架构也叫做“缓存一致性NUMA(Non-Uniform Memory Architecture非统一内存架构)”，内

13、存互联系统保证内存和所有潜在的缓存副本总是一致的。英特尔QPI是一个端到端互联和消息传递方案，在目前的实现中，每个连接由最高速度可达25.6 GB/s或6.4 GT/s的20条线路组成。英特尔QPI使用端到端连接，因此在插座中需要一个内部交叉路由器，提供全局内存访问，通过它，不需要完整的连接拓扑就可以构建起系统了。图12显示了四插座Nehalem-EX配置，每个处理器有四个QPI与其它三个处理器和Boxboro-EX芯片组互联。二、内存子系统电子业在内存子系统上付出了艰辛的努力，只为紧跟现代处理器需要的低访问时间和满足当今应用程序要求的高容量需求。解释当前内存子系统之前，我们先了解一下与内存有

14、关的一些常用术语。. RAM(随机访问存储器). SRAM(静态RAM). DRAM(动态RAM). SDRAM(同步DRAM). SIMM(单列直插式内存模块). DIMM(双列直插内存模块). UDIMM(无缓冲DIMM). RDIMM(带寄存器的DIMM). DDR(双数据速率SDRAM). DDR2(第二代DDR). DDR3(第三代DDR)电子器件工程联合委员会(Joint Electron Device Engineering Council，JEDEC)是半导体工程标准化机构，JEDEC 21，22定义了从256位SRAM到最新的DDR3模组的半导体存储器标准。现代服务器的内存子

15、系统是由RAM组成的，允许数据在一个固定的时间按任意顺序访问，不用考虑它所在的物理位置，RAM可以是静态的或动态的。SRAMSRAM(静态RAM)通常非常快，但比DRAM的容量要小，它们有一块芯片结构维持信息，但它们不够大，因此不能作为服务器的主要内存。DRAMDRAM(动态RAM)是服务器的唯一选择，术语“动态”表示信息是存储在集成电路的电容器内的，由于电容器会自动放电，为避免数据丢失，需要定期充电，内存控制器通常负责充电操作。SDRAMSDRAM(同步DRAM)是最常用的DRAM，SDRAM具有同步接口，它们的操作与时钟信号保持同步，时钟用于驱动流水线内存访问的内部有限状态机，流水线意味着

16、上一个访问未结束前，芯片可以接收一个新的内存访问，与传统DRAM相比，这种方法大大提高了SDRAM的性能。DDR2和DDR3是两个最常用的SDRAM，下图显示了一块DRAM芯片的内部结构。图 13 DRAM芯片的内部结构内存阵列是由存储单元按矩阵方式组织组成的，每个单元都一个行和列地址，每一位都是存储在电容器中的。为了提高性能，降低功耗，内存阵列被分割成多个“内存库(bank)”，下图显示了一个4-bank和一个8-bank的内存阵列组织方式。图 14 内存bankDDR2芯片有四个内部内存bank，DDR3芯片有八个内部内存bank。DIMM需要将多个内存芯片组装到一起才能构成一个内存子系统

17、，它们就是按著名的DIMM(双列直插内存模块)组织的。下图显示了内存子系统的传统组织方式，例如，内存控制器连接四个DIMM，每一个由多块DRAM芯片组成，内存控制器有一个地址总线，一个数据总线和一个命令(也叫做控制)总线，它负责读，写和刷新存储在DIMM中的信息。图 15 传统内存子系统示例下图展示了一个内存控制器与一个DDR3 DIMM连接的示例，该DIMM由八块DRAM芯片组成，每一块有8位数据存储能力，每存储字(内存数据总线的宽度)则共有64位数据存储能力。地址总线有15位，它可在不同时间运送“行地址”或“列地址”，总共有30个地址位。此外，在DDR3芯片中，3位的bank地址允许访问8

18、个bank，可被视作提高了控制器的地址空间总容量，但即使内存控制器有这样的地址容量，市面上DDR3芯片容量还是很小。最后，RAS(Row Address Selection，行地址选择)，CAS(Column Address Selection，列地址选择)，WE(Write Enabled，写启用)等都是命令总线上的。图 16 DDR3内存控制器示例下面是一个DIMM的示意图。图 17 DIMM示意图上图显示了8个DDR3芯片，每个提供了8位信息(通常表示为x8)。ECC和Chipkill数据完整性是服务器架构最关注的一个点，很多时候需要安装额外的DIMM检测和恢复内存错误，最常见的办法是增

19、加8位ECC(纠错码)，将存储字从64位扩大到72位，就象海明码一样，允许纠正一位错误，检测两位错误，它们也被称作SEC(Single Error Correction，单纠错)/DED(Double Error Detection，双检错)。先组织存储字再写入到内存芯片中，EEC可以用于保护任一内存芯片的失效，以及单内存芯片的任意多位错误，这些功能有几个不同的名字。. Chipkill是IBM的商标. Oracle称之为扩展EEC. 惠普称之为Chipspare. 英特尔有一个类似的功能叫做x4单设备数据校正(Intel x4 SDDC)Chipkill通过跨多个内存芯片位散射EEC字的位实

20、现这个功能，任一内存芯片失效只会影响到一个ECC位，它允许重建内存中的内容。下图了显示了一个读和写128位数据的内存控制器，增加EEC后就变成144位了，144位分成4个36位的存储字，每个存储字将是SEC/DED。如果使用两个DIMM，每个包含18个4位芯片，可以按照下图所示的方法重组位，如果芯片失效，每4个字中只会有一个错误，但因为字是SEC/DED的，每4个字可以纠正一个错误，因此所有错误都可以被纠正过来。图 18 Chipkill示例内存Rank我们重新回到DIMM是如何组织的，一组产生64位有用数据(不计ECC)的芯片叫做一个Rank，为了在DIMM上存储更多的数据，可以安装多个Ra

21、nk，目前有单，双和四个Rank的 DIMM，下图显示了这三种组织方法。图 19 DIMM和内存排上图最前面显示的是一个单Rank的RAM，由9个8位芯片组成，一般表示为1Rx8，中间显示的是一个1Rx4，由18个4位芯片组成，最后显示的是一个2Rx8，由18个8位芯片组成。内存Rank不能使用地址位选择，只能使用芯片选择，现代内存控制器最多可达8个独立的芯片选择，因此最大可支持8个Rank。UDIMM和RDIMMSDRAM DIMM进一步细分为UDIMM(无缓冲DIMM)和RDIMM(带寄存器的DIMM)，在UDIMM中，内存芯片直接连接到地址总线和控制总线，无任何中间部分。RDIMM在传入

22、地址和控制总线，以及SDRAM之间有额外的组件(寄存器)，这些寄存器增加了一个延迟时钟周期，但它们减少了内存控制器上的电负荷，允许内存控制器安装更多的DIMM。RDIMM通常更贵，因为它需要附加组件，但它们在服务器中得到了普遍使用，因为对于服务器来说，扩展能力和稳定性比价格更重要。虽然理论上带寄存器/无缓冲的和ECC/非ECC DIMM是可以任何组合的，但大多数服务器级内存模块都同时具有ECC和带寄存器功能。下图显示了一个ECC RDIMM，寄存器是箭头指向的芯片，这个ECC DIMM由9个内存芯片组成。图 20 ECC RDIMMDDR2和DDR3第一代SDRAM技术叫做SDR(Single

23、 Data Rate)，表示每个时钟周期传输一个数据单元，之后又出现了DDR(Double Data Rate)标准，其带宽几乎是SDR的两倍，无需提高时钟频率，可在时钟上升沿和下降沿信号上同时传输数据，DDR技术发展到今天形成了两套标准：DDR2和DDR3。DDR 2 SDRAM的工作电压是1.8V，采用240针DIMM模块封装，通过改善总线信号，它们可以以两倍于DDR的速度工作在外部数据总线上，规则是：. 每DRAM时钟数据传输两次. 每次数据传输8个字节(64位)下表显示了DDR2标准。表2. DDR2 DIMM标准名称DRAM 时钟频率每秒传输的数据（百万）模块名称峰值传输速率GB/s

24、DDR2-400200 MHz400PC2-32003.200DDR2-533266 MHz533PC2-42004.266DDR2-667333 MHz667PC2-5300PC2-54005.333DDR2-800400 MHz800PC2-64006.400DDR2-1066533 MHz1,066PC2-8500 PC2-86008.533DDR 3 SDRAM在DDR2的基础上对以下这些方面做了改进：. 将工作电压降低到1.5v，减少功耗;. 通过引入0.5-8Gb的芯片增加了内存密度，单Rank的容量最大可达16GB;. 增加了内存带宽，内存突发长度从4字增加到8字，增加突发长度是

25、为了更好地满足不断增长的外部数据传输速率，随着传输速率的增长，突发长度(传输的大小)必须增长，但不能超出DRAM核心的访问速度。DDR3 DIMM有240针，数量和尺寸都和DDR2一样，但它们在电气特性上是不兼容的，缺口位置不一样，未来，DDR3将工作在更快的时钟频率，目前，市面上存在DDR3-800，1066和1333三种类型。下表对不同的DDR3 DIMM模块进行了总结。表3. DDR3 DIMM标准名称RAM 时钟频率每秒传输的数据（百万）模块名称峰值传输速率 GB/sDDR3-800400 MHz800PC3-64006.400DDR3-1066533 MHz1,066PC3-8500

26、8.533DDR3-1333667 MHz1,333PC3-1060010.667DDR3-1600800 MHz1,600PC3-1280012.800DDR3-1866933 MHz1,866PC3-1490014.900三、I/O子系统I/O子系统负责在服务器内存和外部世界之间搬运数据，传统上，它是通过服务器主板上兼容PCI标准的I/O总线实现的，开发PCI的目的就是让计算机系统的外围设备实现互联，PCI的历史非常悠久，现在最新的进化版叫做PCI-Express。外围组件互联特殊兴趣小组(Peripheral Component Interconnect Special Interest

27、 Group ，PCI-SIG)负责开发和增强PCI标准。PCI ExpressPCI Express(PCIe)是一个计算机扩展接口卡格式，旨在替代PCI，PCI-X和AGP。它消除了整个所有I/O引起的限制，如服务器总线缺少I/O带宽，目前所有的操作系统都支持PCI Express。上一代基于总线拓扑的PCI和PCI-X已经被点到点连接取代，由此产生的拓扑结构是一个单根联合体的树形结构，根联合体负责系统配置，枚举PCIe资源，管理中断和PCIe树的错误。根联合体和它的端点共享一个地址空间，通过内存读写和中断进行通信。PCIe使用点到点链接连接两个组件，链接由N个通道组成，每个通道包含两对电

28、路，一对用于传输，另一对用于接收。南桥(也叫做ICH：I/O Controller Hub)通常会提供多个PCIe通道实现根联合体的功能。每个通道连接到一个PCI Express端点，一个PCI Express Switch，一个PCIe或一个PCIe桥，如下图所示。图 21 PCI Express根联合体根据通道编号使用不同的连接器，下图显示了四个不同的连接器，及单/双向时的速度。图 22 PCI Express连接器在PCIe 1.1中，通道运行在2.5Gbps，可同时部署16条通道，如下图所示，可支持的速度从2Gbps(1x)到32Gbps(16x)，由于协议开销，支持10GE接口需要8

29、x。图 23 PCI Express通道PCIe 2.0(也叫第二代PCIe)带宽提升了一倍，从2Gbit/s提高到4Gbit/s，通道数量也扩大到了32x，PCIe 4x就足以支持10GE了。PCIe 3.0将会再增加一倍带宽，最终的PCIe 3.0规范预计会在2010年年中发布，到2011年就可看到支持PCIe 3.0的产品，PCIe 3.0能有效地支持40GE(下一代以太网标准)。目前所有的PCI Express产品都是单根的(Single Root，SR)，如控制多个端点的单I/O控制器中枢(ICH)。多根(Multi Root，MR)也发展了一段时间，但目前还未见到曙光，由于缺少元件

30、和关注，目前还有诸多问题。SR-IOV(Single Root I/O Virtualization，单根I/O虚拟化)是PCI-SIG开发的另一个相关标准，主要用于连接虚拟机和Hypervisor。四、英特尔微架构英特尔Nehalem和Westmere微架构，也被称为32和45nm酷睿微架构。Nehalem微架构于2009年初引入了服务器，也是第一个使用45nm硅技术的架构，Nehalem处理器可应用于高端桌面应用程序，超大规模服务器平台等，代号名来源于美国俄勒冈州的Nehalem河。根据英特尔的说法，处理器的发展速度就象嘀嗒(Tick and Tock)钟声的节奏一样，如下图所示，Tick是对现有处理器架构进行缩小，而Tock则是在前一代技术上发展起来的全新架构，Nehalem就是45nm的Tock，Westmere就是紧跟Nehalem的32nm Tick。图 24 英特尔“嘀嗒”处理器开发模式N

注意事项

本文（服务器硬件架构.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。