chapter1-5.ppt
- 文档编号:6536383
- 上传时间:2023-05-10
- 格式:PPT
- 页数:97
- 大小:5.52MB
chapter1-5.ppt
《chapter1-5.ppt》由会员分享,可在线阅读,更多相关《chapter1-5.ppt(97页珍藏版)》请在冰点文库上搜索。
5并发性发展及计算机系统的分类,并行性概念计算机系统的并行性发展并行处理系统的结构与多机系统的耦合度计算机系统的分类,并行性概念,只要在同一时刻或是在同一时间间隔内完成两种或两种以上性质相同或不同的工作,它们在时间上能互相重叠。
同时性(Simultaneity):
两个或多个事件在同一时刻发生。
并发性(Concurrency):
两个或多个事件在同一时间间隔内发生。
从计算机系统中执行程序角度来看,指令内部指令之间任务或进程之间作业或进程之间,从计算机应用角度来看,Data-LevelParallelism(DLP)arisesbecausetherearemanydataitemsthatcanbeoperatedonatthesametime.Task-LevelParallelism(TLP)arisesbecausetasksofworkarecreatedthatcanoperateindependentlyandlargelyinparallel.,从处理数据的并行性来看,位串字串位并字串位片串字并全并行存储器操作并行处理器操作步骤并行处理器操作并行指令、任务、作业并行,从计算机技术实现方式来看,Instruction-LevelParallelism)exploitsdata-levelparallelismatmodestlevelswithcompilerhelpusingideaslikepipeliningandatmediumlevelsusingideaslikespeculativeexecution.VectorArchitecturesandGraphicProcessorUnits(GPUs)exploitdata-levelparallelismbyapplyingasingleinstructiontoacollectionofdatainparallel.Thread-LevelParallelismexploitseitherdata-levelparallelismortask-levelparallelisminatightlycoupledhardwaremodelthatallowsforinteractionamongparallelthreads.Request-LevelParallelismexploitsparallelismamonglargelydecoupledtasksspecifiedbytheprogrammerortheoperatingsystem.,并行性开发途径,时间重叠(TimeInterleaving)是在并行性概念中引入时间因素,让多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部分,以加快硬件周转而赢得速度。
举例:
流水线分离、细化功能部件流水线功能不同的多机系统异构型多处理机系统,指令流水线举例,并行性开发途径(续),资源重复(ResourceReplication):
是在并行性概念中引入空间因素,通过重复设置硬件资源来提高可靠性或性能。
多操作部件和多体存储器相联、并行处理机同构型多处理机系统,CU,PE(0),PE
(1),PE(N-1),资源重复的例子,并行性开发途径(续),资源共享(ResourceSharing):
是利用软件的方法让多个用户按一定时间顺序轮流地使用同一套资源,以提高其利用率,这样也可以提高整个系统的性能。
网络打印机多道程序、分时OS真正的处理机代替虚拟机分布处理系统,计算机系统的并行性发展,1960年以前算术运算的位运算(EDSAC、EDVAC、UNIVAC1)输入输出间操作的并行直接存储器访问(DMA)IBM709系列1960年至1970年流水线单处理机多功能部件流水线高速缓冲存储器Cache,计算机系统的并行性发展(续),1970年至1980年多种并行处理系统结构,例:
向量、阵列、相联等1980年至1990年RISC、多处理机、数据流机、智能机1990年以来MPP:
MassivelyParallelProcessor大规模并行处理机SMP:
SymmetricMultiprocessor对称多处理机SMPOnBoard,SMPonChipCluster:
机群、集群,坐落于LawrenceLivermore国家实验室的ASCIWhite,FUJITSUVPP5000,IBMp690,32x1.7GHzPower4+,217GFlops128GB内存,205GB/S内存带宽3xI/O抽屉,60xPCI-X,18GB/SI/O子系统带宽42x146.8GBUltraSCSI3磁盘,1920MB/S磁盘接口带宽(stripping)2xGigabitEthernet接口,传统的科学工程研究方法,理论+实验局限:
困难:
大型风道昂贵:
小鸟撞飞机缓慢:
气候变化、星际演变危险:
武器设计、药物设计,并行计算-高性能计算,并行计算(ParallelComputing)高端计算(High-endParallelComputing)高性能计算(HighPerformanceComputing)超级计算(SuperComputing)任何高性能计算和超级计算都离不开使用并行技术计算科学与传统的两种科学,即理论科学和实验科学,并立被认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科学发展与社会进步。
在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段,计算能力挑战,为寻找出潜在的抑制剂药物,需要对所有已知化合物数据库中的微生物药物靶标做甄别,甄别工作需要高性能计算机辅助完成360万亿次的高性能计算机需要运行365天1000万亿次的高性能计算机需要运行30天5000万亿次的高性能计算机,需要运行一年完成所有已知的人类药物靶标目前最高性能的Intel四核PC的性能大约为500亿次每秒,日益膨胀的高性能计算需求,HPC目前成为国家各行业科技创新的基础,当前对HPC人才的需求持续攀升,高性能计算应用分类,计算密集型应用(Computing-intensive):
大型科学工程计算,数值模拟等。
应用领域:
石油、气象、CAD、核能、制药、环境监测分析、系统仿真等。
数据密集型应用(Data-intensive):
数字图书馆,数据仓库,数据挖掘,计算可视化等。
应用领域:
图书馆、银行、证券、税务、决策支持系统等。
通信密集型应用(Network-intensive):
协同工作,网格计算,遥控和远程诊断等。
应用领域:
网站、信息中心、搜索引擎、电信、流媒体等。
对计算能力的需求持续增长,2020年以前超级计算机发展趋势,2000年每秒10万亿次浮点运算2005年每秒100万亿次浮点运算2009年每秒1000万亿次浮点运算(Pflop/s)2013年每秒1亿亿次浮点运算2016年每秒10亿亿次浮点运算2020年每秒100亿亿次浮点运算(Eflop/s)基本上每10年左右性能提高1000倍,超级计算机发展路线图,2010,2020,2030,2050,并行计算软件环境及现状,操作系统:
UNIX、LINUX、WindowsNT在SMP,DSM并行机上编译系统通常具有一定的对用户程序(C/Fortran)进程自动并行化的能力,但经常需要人工干预(通过编译制导,命令行选项等)以达到理想的并行效率,且并行主要针对循环进行(属于细粒度并行)在分布式内存并行机上尚无通过高效的自动并行工具,主要依靠人工编写并行程序并行算法的设计及并行程序的编制已成为目前特约大规模并行计算机应用的主要障碍并行编程现状并行软件开发远远落后于并行系统体系结构的发展。
缺少合适的并行软件是阻碍主流用户社会接纳并行计算的原因与串行软件相比,并行软件数量少,功能原始,编程环境落后的并行编译器、调试器vs.通用先进的串行编程环境.自动并行编译器远远满足不了程序并行化的要求.算法并行模型的多样化(并行计算机系统结构的多样性)vs.串行编程中的唯一模型:
冯.诺依曼模型问题的并行求解的困难在于问题的多样性和求解过程中所需的创造性劳动,使得这一过程难以进行自动化对串行机而言,解法=唯一串行算法+计算程序(通用)对并行机而言,解法=某种并行算法+有针对性的计算程序(很难通用)程序员稀少而初级的并行编程人员vs.成熟而经验丰富的串行程序员,并行处理计算机的结构,流水线计算机(时间重叠)阵列处理机(资源重复)多处理机系统(资源共享)数据流计算机,流水线计算机、阵列处理机和多处理机,流水线计算机:
主要通过时间重叠,让多个部件在时间上交错重叠地并行执行运算和处理,以实现时间上的并行。
阵列处理机:
主要通过资源重复,设置大量算术逻辑单元,在同一控制部件作用下同时运算和处理,以实现空间上的并行。
多处理机系统:
主要通过资源共享,让共享输入/输出子系统、数据库资源及共享或不共享贮存的一组处理机在统一的操作系统全盘控制下,实现软件和硬件各级上相互作用,达到时间和空间上的异步并行。
多机系统,指的是多处理机系统和多计算机系统多处理机系统:
是由多台处理机组成的单一计算机系统,各处理机都可有自己的控制部件,可带自己的局部存储器,能执行各自的程序。
多计算机系统:
是由多台独立的计算机组成的系统,各计算机分别在逻辑上独立的操作系统控制下运行,机间可以互不通信,即使通信也只是经通道或通信线路以文件或数据集形式进行,实现多个作业的并行。
多机系统的耦合度,为了反映多机系统中各级器之间物理连接的紧密程度和交叉作用能力的强弱。
最低耦合系统(LeastCoupledSystem):
各种脱机系统松散耦和系统(LooselyCoupledSystem):
如果多台计算机通过通道或通信线路实现互连,共享某些磁带、磁盘等外围设备,以较低频带在文件或数据集一级相互作用。
间接耦合系统紧密耦合系统(TightlyCoupledSystem):
如果多台机器之间通过总线或高速开关互连,共享主存,并有较高的信息传输速度,可以实现数据集一级、任务级、作业级的并行。
直接耦合系统,并行向量处理机(PVP),结构特点:
具有少量的高性能专门设计的VP;定制高带宽互连网;共享存储器;大量的向量寄存器而无高速缓存。
典型结构:
分布共享存储多处理机(DSM),结构特点:
MIMDDM,CCNUMA;单地址空间的应用界面;DIR用以支持分布高速缓存一致性;定制互连网络。
典型结构:
大规模并行处理机(MPP),结构特点:
MIMDDM,NORMA;商用微处理器具有片上高速缓存;分布式存储器;定制的互连网络。
物理和逻辑上均是分布内存;能扩展至成百上千个处理器(微处理器或向量处理器);采用高通信带宽和低延迟的互联网络(专门设计和定制的);一种异步的MIMD机器;程序系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用;典型结构:
对称多处理机(SMP),共享内存多处理机:
任意处理器可直接访问任意内存地址,且访问延迟、带宽、几率都是等价的;系统是对称的;结构特点:
商用微处理器具有片上高速缓存;MIMDSM,对称,UMA;共享存储器;总线或交叉开关互连;总线侦听协议。
常用作CCNUMA或机群系统中节点处理器。
典型结构:
机群系统Cluster,结构特点:
MIMD-DM自治系统,每个节点是一个独立的计算机;互连网络使用标准低成本商用局网;节点机可以是工作站或PC机,带有磁盘,具有完整的OS。
是近代最流行的并行分布式系统。
典型结构:
访存模型,UMA:
NORMA:
NUMA:
多处理机(单地址空间共享存储器)UMA:
UniformMemoryAccessNUMA:
NonuniformMemoryAccess多计算机(多地址空间非共享存储器)NORMA:
No-RemoteMemoryAccess,均匀存储器存取(UMA),均匀存储器存取(UMAUniformMemoryAccess)所有处理器均匀共享物理存储器,这里所谓均匀是指所有处理器对所有存储字具有相同的存取时间每台处理器可带私有高速缓存外围设备也可以一定形式共享各处理机之间的通信是通过共享存储器的共享变量来实现的这一类多处理机由于对资源的高度共享,常称紧耦合系统(tightlycoupledsystem),UMA:
均匀存储器存取(UMA),对称多处理机系统(symmetricmulti-processor)所有处理机都能同样访问所有外围设备;所有处理机都能同样运行执行程序,如操作系统的内核、I/O服务程序不对称处理机系统(asymmtricmulti-processor)只有一台或一组处理机(MP主处理机)执行操作系统并操纵I/O,其余处理机(AP附属处理机)没有I/O能力,非均匀存储访问(NUMA),非均匀存储访问(NUMANonuniformMemoryAccess)被共享的存储器在物理上是分布在所有的处理其中的,其所有本地存储器的集合就组成了全局地址空间处理器访问存储器的时间是不一样的:
访问本地存储器(LM)较快,而访问外地的存储器较慢(此即是非均匀存储访问名称的由来)每台处理器可带私有高速缓存,且外设也可以某种形式共享,NUMA:
非远程存储访问(NORMA),非远程存储访问(NORMANo-RemoteMemoryAccess)所有存储器都是私有的,仅能由其处理器所访问绝大都数都不支持远程存储器的访问,NORMA:
结构模型-访存模型,UMA:
NUMA:
NORMA:
多处理机多计算机,UMA:
NUMA:
NORMA:
多处理机(共享存储),多计算机(分布式存储),名次解释,UMA:
UniformMemoryAccess均匀存储访问NUMA:
NouniformMemoryAccess非均匀存储访问COMA:
Cache-OnlyMemoryAccess全高速缓存存储访问CC-NUMA:
Cache-CoherentNonuniformMemoryAccess高速缓存一致性均匀存储访问NCC-NUMA:
Cache-CoherentNonuniformMemoryAccess非高速缓存一致性均匀存储访问NORMA:
No-RemoteMemoryAccess非远程存储访问DSM:
DistributedSharedMemory分布式共享存储PVP:
ParallelVectorProcessor并行向量处理机,计算机系统的分类,采用的基本器件处理器性能1966年MichaelJ,Flynn1978年DavidJ.Kuck:
用指令流和执行流(ExecutionStream)及其多倍性来描述计算机系统总控制器的结构特征1972年冯泽云:
提出用数据处理的并行度来定量地描述各种计算机系统特性。
按采用的基本器件分类,计算机的更新换代第一代电子管计算机第二代晶体管计算机第三代中小规模集成电路第四代大或超大规模集成电路第五代VLSI(甚大规模集成电路)目前的绝大多数计算机系统是VLSI计算机公认的第五代计算机什么时候诞生?
第五代计算机以什么作为标志来划分?
计算机性能的大幅度提高或更新换代,一方面依靠器件的不断更新,同时也依赖系统结构的不断改进。
五代计算机的特征表,按处理器性能分类,按系统成本划分按用途划分按数据类型划分按处理器个数和种类划分,按计算机系统成本分类,巨型计算机、超级计算机SuperComputer大型计算机MainComputer中型机算机MidComputer小型计算机MiniComputer微型计算机MicroComputer工作站介于小型机和微型机之间,具有小型机的性能,微型机的价格。
划分原则:
以性能为特征,按价格来划分存在问题:
划分标准是随时间而变化每五年左右降低一个等级设计方法:
最高性能:
特殊用途最佳性能价格比:
一般商用计算机最低价格:
家用计算机等Smallisfast.,按用途划分,种类:
科学计算、事务处理、实时控制、工作站、服务器、家用计算机等划分原则:
科学计算:
浮点运算能力事务处理:
字符处理、十进制运算实时控制:
中断响应速度、I/O能力工作站:
图形处理能力服务器:
数据处理速度、数据存储能力家用计算机:
价格便宜,软件丰富发展方向:
具备上述所用功能的通用计算机各种专用处理机、协处理器、嵌入式处理器,按数据类型划分,定点计算机浮点计算机向量计算机堆栈计算机等,按处理器个数和种类划分,单处理机、多处理机、分布处理机关联处理机超标量处理机、超流水线处理机、VLIW处理机SMP(对称多处理机)、MPP(大规模处理机)、机群(Cluster)系统等,Hennessy分类,PersonalMobileDevice(PMD),isthetermweapplytoacollectionofwirelessdeviceswithmultimediauserinterfacessuchascellphones,tabletcomputers,andsoon.Costisaprimeconcerngiventheconsumerpriceforthewholeproductisafewhundreddollars.ApplicationsonPMDsareoftenWeb-basedandmedia-orientedResponsivenessandpredictabilityarekeycharacteristicsformediaapplicationsOtherkeycharacteristicsinmanyPMDapplicationsaretheneedtominimizememoryandtheneedtouseenergyefficiently.Salesin2010includedabout1.8billionPMDs(90%cellphones),DesktopComputing,Thefirst,andprobablystillthelargestmarketindollartermsspansfromlow-endnetbooksthatsellforunder$300tohigh-end,heavilyconfiguredworkstationsthatmaysellfor$2500.Throughoutthisrangeinpriceandcapability,thedesktopmarkettendstobedriventooptimizeprice-performanceSalesin2010,350milliondesktopPCs,Servers,Astheshifttodesktopcomputingoccurredinthe1980s,theroleofserversgrewtoprovidelarger-scaleandmorereliablefileandcomputingservices.Suchservershavebecomethebackboneoflarge-scaleenterprisecomputing,replacingthetraditionalmainframe.First,availabilityiscritical.Asecondkeyfeatureofserversystemsisscalability.Finally,serversaredesignedforefficientthroughput.Salesin2010,20millionservers.,Clusters/Warehouse-ScaleComputers,ThegrowthofSoftwareasaService(SaaS)forapplicationslikesearch,socialnetworking,videosharing,multiplayergames,onlineshopping,andsoonhasledtothegrowthofaclassofcomputerscalledclusters.Clustersarecollectionsofdesktopcomputersorserversconnectedbylocalareanetworkstoactasasinglelargercomputer.Eachnoderunsitsownoperatingsystem,andnodescommunicateusinganetworkingprotocol.Thelargestoftheclustersarecalledwarehouse-scalecomputers(WSCs),inthattheyaredesignedsothattensofthousandsofserverscanactasone.Price-performanceandpowerarecriticaltoWSCssincetheyaresolarge.WSCsarerelatedtoservers,inthatavailabilityiscritical.SupercomputersarerelatedtoWSCsinthattheyareequallyexpensive,costinghundredsofmillionsofdollars,butsupercomputersdifferbyemphasizingfloating-pointperformanceandbyrunninglarge,communication-intensivebatchprogramsthatcanrunforweeksatatime.,20英尺产品占地面积15,最大重量20吨,可容纳7680个计算核心,能够提供百万亿次计算能力,整合47个云海集装箱形成的数据中心可达到世界性能最高的天河一号峰值能力,最大可提供6PB存储空间,能够容纳300万部高清电影或者50万人口医疗视频资料,2个smartcloud集装箱数据中心可存储美国国会图书馆藏书。
EmbeddedComputers,foundineverydaymachines;microwaves,washingmachines,mostprinters,mostnetworkingswitches,andallcarscontainsimpleembeddedmicroprocessors.Thetotalnumberofembeddedprocessorssoldwasnearly19billion.Intotal,6.1billionARM-technologybasedchipswereshippedin2010.,个人计算机,MichaelJ,Flynn分类,指令流:
是指机器执行的指令序列。
数据流:
是指指令流调用的数据序列,包括输入数据和中间结果。
多倍
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- chapter1