Tomasulo算法实验报告.docx
- 文档编号:14868143
- 上传时间:2023-06-28
- 格式:DOCX
- 页数:11
- 大小:106.11KB
Tomasulo算法实验报告.docx
《Tomasulo算法实验报告.docx》由会员分享,可在线阅读,更多相关《Tomasulo算法实验报告.docx(11页珍藏版)》请在冰点文库上搜索。
Tomasulo算法实验报告
高级计算机系统结构
Tomasulo算法实验报告
Tomasulo算法实验
一、实验目的
〔1〕加深对指令集并行性及开发的理解。
〔2〕加深对Tomasulo算法的理解。
.
〔3〕掌握Tomulo算法在指令流出、执行、写结果各阶段对浮点操作指令以及load和store指令进行什么处理。
〔4〕掌握采用了Tomasulo算法的浮点处理部件的结构。
〔5〕掌握保存站的结构。
〔6〕给定被执行代码片段,对于具体某个时钟周期,能够写出保存站、指令状态表以及浮点存放器状态表内容的变化情况。
二、实验平台
采用Tomasulo算法模拟器。
Tomasulo算法根本思想:
记录和检测指令相关,操作数一旦就绪就立即执行,把发生RAW冲突的可能性减少到最小;通过存放器换名来消除WAR冲突和WAW冲突。
三、实验内容和步骤
◆实验一
〔1〕学会使用Tomasulo算法。
假设浮点功能部件的延迟时间为加减法2个周期,乘法10个时钟周期,除法40个时钟周期,load部件2个时钟周期。
1对于下面的代码段,给出当指令MUL.D写结果时,保存站、load缓冲器以及存放器状态表中的内容。
L.DF6,24(R2)
L.DF2,12(R3)
MUL.DF0,F2,F4
SUB.DF8,F6,F2
DIV.DF10,F0,F6
ADD.DF6,F8,F2
②按步进方式执行上述代码,利用模拟器的“小三角按钮〞的比照显示功能,观察每一个时钟周期前后各信息表中内容的变化情况。
〔2〕对与上面相同的延迟时间和代码段。
①给出在第3个时钟周期时,保存站、load缓冲器以及存放器状态表中的内容。
②步进5个时钟周期,给出这时保存站、load缓冲器以及存放器状态表中的内容。
③再步进10个时钟周期,给出这时保存站、load缓冲器以及存放器状态表中的内容。
◆实验二
假设浮点功能部件的延迟时间为加减法3个时钟周期,乘法8个时钟周期,除法40个时钟周期。
对于下面的代码重复实验一中步骤〔2〕的内容。
编写代码如下:
L.DF6,28(R2)
ADD.DF2,F4,F8
MUL.DF0,F2,F4
SUB.DF8,F6,F2
DIV.DF12,F0,F6
ADD.DF10,F8,F2
四、实验结果及分析
说明:
R[X]表示存放器X的内容,M[y]表示存储器存储单元y的内容:
实验一
实验二
◆实验一结果
浮点功能部件的延迟时间为加减法2个周期,乘法10个时钟周期,除法40个时钟周期,load部件2个时钟周期,根据实验结果可知程序全部执行完需要57个时钟周期。
1)当指令MUL.D写结果时,保存站、load缓冲器以及存放器状态表中的内容。
根据实验结果得出MUL.D写结果时是第16个周期,此时各部件的状态如下所示:
1其指令执行状态如下:
②其保存站内容如下:
分析:
此时SUB.D、ADD.D和MULt1已经执行完毕,所以Busy状态为“no〞,而DIV.D还未执行完,所以保存站Mult2仍处于忙碌状态。
③load缓冲器内容:
分析:
此时Loda缓冲器处于闲置状态,因为只有前两条指令需要计算地址,而前两条指令在第5个周期时已经执行完,所以指导程序运行完的所有周期中该部件都是处于闲置状态的。
④存放器内容:
2〕第3个时钟周期时,保存站、load缓冲器以及存放器状态表中的内容。
①指令状态
②保存站内容
分析:
第3个时钟周期时MULT.D指令流出,所以保存站的Mult1处于忙碌状态。
③load缓冲器内容:
分析:
第3个时钟周期时前两条去操作数的指令还为执行完,所以load缓冲器的前两个缓冲器处于忙状态。
④存放器
3)步进5个时钟周期,给出这时保存站、load缓冲器以及存放器状态表中的内容。
步进5个时钟周期后,是程序执行的第8个周期,此时各部件的状态如下:
①指令状态〔此时SUB.D指令恰好执行完成〕
②保存站内容
分析:
第8个周期时L.D和SUB.D三条指令执行完毕,其余三条未完成,所以保存站中仍有其他三条的信息。
③load缓冲器内容:
④存放器内容
4〕再步进10个时钟周期,这时处于执行周期的第18个周期,这时保存站、load缓冲器以及存放器状态表中的内容:
①指令状态
分析:
第18个周期时只剩下DIV.D指令未执行完,并且此时正处于执行的等待阶段。
②保存站
分析:
此时其余指令全部执行完毕,只有DIV.D还未执行完,所以只有保存站Mult2仍处于忙碌状态。
③Load缓冲器
④存放器
◆实验二结果
浮点功能部件的延迟时间为加减法3个周期,乘法8个时钟周期,除法40个时钟周期,load部件2个时钟周期。
根据实验结果可知该程序需要56个周期执行完成。
〔分析与实验一类似,不再赘述〕
〔1〕第3个时钟周期时,保存站、load缓冲器以及存放器状态表中的内容。
①指令状态
②保存站
③load缓冲器内容:
④存放器内容
〔2〕步进5个时钟周期,给出这时保存站、load缓冲器以及存放器状态表中的内容。
①指令状态:
②保存站内容:
③Load部件内容:
④存放器部件内容:
〔3〕再步进10个时钟周期,给出这时保存站、load缓冲器以及存放器状态表中的内容。
①指令状态:
②保存站内容:
③Load部件内容:
④存放器部件内容:
五、实验总结
1.对并行性的理解
流水线使指令重叠并行执行,可以到达提高性能的目的,如果指令间没有相关性,可以并行执行,例如程序中前两个指令的流出和执行阶段,第二周期时第二条LOAD.D的流出和第一条LOAD.D的执行同时进行,从而提高了指令执行的效率。
但是由于程序之间的相互依赖性,使得流水线中指令流的下一条指令不能在指定的时钟周期执行,这就是流水线冲突。
因此为了更好的使程序的运行按时完成,我们必须采取相应的措施解决流水线相关引起的问题,而Tomasulo算法就是解决该问题的方法之一。
2、对Tomasulo算法的理解
Tomasulo算法的核心思想是:
①记录和检测指令相关,操作数一旦就绪就立即执行,把发生RAW冲突的可能性减少到最小;②通过存放器换名来消除WAR冲突和WAW冲突。
使用Tomasulo算法的流水线需3段:
〔1〕流出:
从指令队列的头部取一条指令。
①如果该指令的操作所要求的保存站有空闲的,就把该指令送到该保存站〔设为r〕。
②如果其操作数在存放器中已经就绪,就将这些操作数送入保存站r。
③如果其操作数还没有就绪,就把将产生该操作数的保存站的标识送入保存站r。
一旦被记录的保存站完成计算,它将直接把数据送给保存站r。
完成对目标存放器的预约工作,如果没有空闲的保存站,指令就不能流出。
(2)执行
①当两个操作数都就绪后,本保存站就用相应的功能部件开始执行指令规定的操作。
②load和store指令的执行需要两个步骤:
计算有效地址〔要等到基地址存放器就绪〕;把有效地址放入load或store缓冲器。
(3)写结果
功能部件计算完毕后,就将计算结果放到CDB上,所有等待该计算结果的存放器和保存〔包括store缓冲器〕都同时从CDB上获得所需要的数据。
3、Tomasulo算法的浮点处理部件的结构
Tomasulo算法的浮点处理部件包括:
保存站〔浮点加法器有3个保存站:
ADD1,ADD2,ADD3;浮点乘法器有两个保存站:
MULT1,MULT2〕、公共数据总线CDB、load缓冲器和store缓冲器、浮点存放器FP、指令队列、运算部件〔浮点加法器和浮点乘法器〕
4、保存站的结构
每个保存站有以下6个字段:
①Op:
要对源操作数进行的操作。
②Qj,Qk:
将产生源操作数的保存站号。
等于0表示操作数已经就绪且在Vj或Vk中,或者不需要操作数。
③Vj,Vk:
源操作数的值。
对于每一个操作数来说,V或Q字段只有一个有效。
对于load来说,Vk字段用于保存偏移量。
④Busy:
为“yes〞表示本保存站或缓冲单元“忙〞。
⑤A:
仅load和store缓冲器有该字段。
开始是存放指令中的立即数字段,地址计算后存放有效地址。
6Qi:
存放器状态表。
每个存放器在该表中有对应的一项,用于存放将把结果写入该存放器的保存站的站号。
为0表示当前没有正在执行的指令要写入该存放器,也即该存放器中的内容就绪。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Tomasulo 算法 实验 报告