统计试验报告小组实验报告闫凯华组.docx
- 文档编号:16422591
- 上传时间:2023-07-13
- 格式:DOCX
- 页数:85
- 大小:3.97MB
统计试验报告小组实验报告闫凯华组.docx
《统计试验报告小组实验报告闫凯华组.docx》由会员分享,可在线阅读,更多相关《统计试验报告小组实验报告闫凯华组.docx(85页珍藏版)》请在冰点文库上搜索。
统计试验报告小组实验报告闫凯华组
石河子大学经济与管理学院
统计模拟实习实验报告
专业:
经济学
班级:
2013级1班
组长:
闫凯华(实验六、八)
小组成员:
杨宇轩(实验四、五)
范利峰(实验一、七)
刘戈阳(实验二、三)
授课老师:
王润
中国·新疆·石河子
二一六年一月
实验一数据文件管理(范利丰2013516200)
一、实验目的与要求
通过该实验,我要掌握SPSS软件包有关数据文件创建和整理的基本操作,学习如何将收集到的数据输入计算机,组成一个正确的SPSS数据文件,并掌握如何对原始数据文件进行整理,包括数据查询,数据修改、删除、数据的排序等。
二、实验原理
SPSS数据文件是一种结构性数据文件。
SPSS中的变量共有10个属性。
定义一个变量至少要定义它的两个属性,即变量名和变量类型,其他属性可以暂时用系统的默认值,待以后如有分析需要再进行调整设置。
三、实验内容与步骤
(一)问题概述
有一份“我国同各国海关进出口总额”Excel数据,共搜集了我国同亚洲49个国家和地区的海关数据。
现将成绩数据简单处理并录入SPSS中进入分析。
(二)创建数据文件:
读取外部数据
当前版本的SPSS可以很容易地读取Excel数据,步骤如下:
(1)按【文件】→【打开】→【数据】的顺序使用菜单命令调出打开数据对话框,在文件类型下拉列表中选择数据文件,如下图所示。
(2)选择要打开的Excel文件,单击“打开”按钮,调出打开Excel数据源对话框,如下图所示。
(三)数据编辑
在SPSS中,对数据进行基本编辑操作的功能集中在编辑和数据菜单中。
(四)SPSS数据的保存
SPSS数据录入并编辑整理完成以后应及时保存,以防数据丢失。
现将刚才录入的Excel数据保存为SPSS格式的数据文件。
可以通过【文件】→【保存】或者【文件】→【另存为】菜单方式来执行。
如下图所示。
(五)数据整理
在SPSS中,数据整理的功能主要集中在【数据】和【转换】两个主菜单下。
(1)数据排序
对数据按照某一个或多个变量的大小排序将有利于对数据的总体浏览,基本操作说明如下:
选择菜单【数据】→【排列个案】,打开对话框,如下图所示。
(2)抽样
在统计分析中,有时不需要对所有的观测进行分析,而可能只对某些特定的对象有兴趣。
利用SPSS的SelectCase命令可以实现这种样本筛选的功能。
以刚才的数据文件为例。
选择变量sum03大于1000000的进行观测,基本操作如下。
指定抽样的方式:
【全部个案】不进行筛选;【如果条件满足】按指定条件进行筛选。
本例设置:
sum03>1000000,如下图所示;
设置完成以后,点击继续,进入下一步。
确定未被选择的观测的处理方法,这里选择默认选项【过滤掉未选定的个案】。
单击ok进行筛选,结果如下图。
(3)增加个案的数据合并
将原SPSS数据文件拆分成两个数据文件,如下图。
现将part2的数据合并到part1的数据文件中,在SPSS中实现数据文件纵向合并的方法如下:
选择菜单【数据】→【合并文件】→【添加个案】,如图2.11,选择需要追加的数据文件,单击打开按钮,弹出AddCases对话框,如下图。
(4)数据拆分
在进行统计分析时,经常要对文件中的观测进行分组,然后按组分别进行分析。
在SPSS中具体操作如下:
选择菜单【数据】→【分割文件】,打开对话框,如下图所示。
(5)计算新变量
在对数据文件中的数据进行统计分析的过程中,为了更有效地处理数据和反映事务的本质,有时需要对数据文件中的变量加工产生新的变量。
本例中计算out03变量和in03变量在变量sum03大于100000的和再乘以1.1,out03变量和in03变量在sum03小于1000000时求和后不乘1.1。
其步骤如下:
选择菜单【转换】→【计算变量】,打开对话框,如下图所示。
在目标变量输入框中输入生成的新变量的变量名。
单击输入框下面类型与标签按钮,在跳出的对话框中可以对新变量的类型和标签进行设置。
在数字表达式输入框中输入新变量的计算表达式。
单击【如果】按钮,弹出子对话框,如下图所示。
包含所有个体:
对所有的观测进行计算;如果个案满足条件则包括:
仅对满足条件的观测进行计算。
单击Ok按钮,执行命令,则可以在数据文件中看到一个新生成的变量。
实验二统计描述(刘戈阳2013516186)
一、问题描述
统计分析的目的在于研究总体特征。
但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。
因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。
通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析。
有一样本数据“1999年各地区城市GDP、住宅投资和城市人口表”,对此样本数据做统计描述分析。
二、实验原理
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:
算术平均数、调和平均数、几何平均数、众数、中位数等。
其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:
全距、内距、平均差、方差、标准差、标准误、离散系数等。
其中标准差、方差适用于正态分布资料,标准误差实际上反映了样本均数的波动程度。
分布特征值:
偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
三、数据录入
有“CH4男女性别身高32_实验2”SPSS数据文件,直接打开到SPSS中,如下图。
有“1999年各地区城市GDP、住宅投资和城市人口表.sav”,如下图:
有“政治期末考试成绩.sav”数据文件一份:
有“四个班级地理成绩.sav”文件一份:
四、实验内容与步骤
(一)频数分析
在SPSS中的频数分析的实现步骤如下:
选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件,然后选择“打开”。
选择菜单“【分析】—>【描述统计】—>【频率】”。
如下图所示。
在变量选择确定之后,在同一窗口上,点击“统计量”按钮,打开统计量对话框,如下图所示,选择统计输出选项。
点击频率(Frequencies)对话框中的“确定”按钮,即得到下面的结果。
统计量:
饼图,男生占62.5%,女生占37.5%。
(二)统计描述
打开“政治期末考试成绩.sav”,选择菜单【分析】→【描述统计】→【描述】,如下图所示。
在主对话框中单击确定执行操作。
结果输出与分析
在结果输出窗口中给出了所选变量的相应描述统计,如下表所示。
(三)探索分析
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。
一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
打开数据文件“四个班级地理成绩”,选择如下命令:
选择菜单“【分析】—>【描述统计】—>【探索】”。
打开对话框。
选择【统计量】按钮,选择想要计算的描述统计量。
如图所示
对所要计算的变量的频数分布及其统计量值作图打开“绘制对话框”,出现如下图。
结果的输出
箱线图:
一班直方图:
一班茎叶图:
地理成绩Stem-and-LeafPlotfor
班级=一班
FrequencyStem&Leaf
2.003.07
5.004.24558
8.005.12235667
8.006.01667789
22.007.0001111223355667888999
12.008.122234577899
Stemwidth:
10.0
Eachleaf:
1case(s)
(四)列联分析
有如下案例:
山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
录入到SPSS中,选择如下命令:
选择菜单“【分析】—>【描述统计】—>【交叉表】”,打开对话框,将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入行变量框中。
将“玉米螟卵高峰发生期[y]”变量选入列变量框中。
选择【统计量】按钮,选择想要计算的统计量。
如图所示
选择【单元格】按钮,选择想要计算的统计量。
如图所示
五、结果输出
结果分析:
其余省略,结论,玉米螟卵高峰发生期与五月气温有密切的关系,五月气温越高,发生越早。
实验三统计推断(刘戈阳2013516186)
一、问题描述
掌握点估计的概念和操作方法,区间估计的给概念和操作方法,掌握SPSS中的T检验。
二、实验原理
掌握参数估计的基本原理和假设检验的基本原理。
三、数据录入
直接将数据文件双击打开,如下图。
四、实验内容与步骤与输出结果分析
(一)单个总体均值的区间估计
以1978到2001历年农业行业平均工资为样本数据,给定置信度95%,求均值估计的上下限。
操作如下:
选择区间估计选项,方法如下:
选择菜单【分析】—>【描述统计】—>【探索】”,打开下图对话框。
从源变量清单中将“agriculture”变量移入因变量列表框中。
单击上图右方的“统计量”按钮打开“探索:
统计量”对话框。
在设置均值的置信水平,如键入95%,完成后单击“继续”按钮回到主窗口。
返回主窗口点击确定运行操作。
计算结果简单说明:
从上表可知,均值的95%置信区间估计为:
(1903.54,3771.83),点估计是2837.69。
(二)两个总体均值之差的区间估计
有例题:
两台机床生产同一型号的滚珠,从甲机床生产的滚珠中抽取8个,从乙机床生产的滚珠中抽取9个,
测得这些滚珠的直径(mm)如下:
甲机床:
15.014.815.215.414.915.115.214.8
乙:
15.215.014.815.115.014.614.815.114.5
设两台机床生产的滚珠直径服从正态分布,求在置信度为0.95下这两台
机床生产的滚珠直径均值差是否存在显著差异。
计算两总体均值之差的区间估计,采用“独立样本T检验”方法。
选择菜单“【分析】→【比较均值】→独立样本T检验”,打开对话框。
将机床变量添加到分组变量中,单击定义组按钮,打开定义分组对话框。
在组1中输入1,在组2中输入2(1表示甲机床,2表示乙机床)。
完成后单击“继续”按钮回到主窗口。
(1)分组统计量表
(2)独立样本T检验表
在假设方差相等的情况下,F=0.227,因为其P-值大于显著性水平,即:
Sig.=0.641>0.05,即说明接受原假设,即说明两机床生产的滚珠之间不存在显著性差异,甲机床与乙机床的平均之差95%的区间估计为[-0.8618,0.36818]。
(三)单个总体均值的假设检验
有例题:
有一种新型农药防治柑桔红蜘蛛,进行了9个小区的实验,其防治效果为:
95%,92%,88%,92%,93%,95%,89%,98%,92%
与原用农药的防治效果90%比较,分析其效果是否高于原用农药。
打开已知数据文件,然后选择菜单“【分析】→【比较均值】→单样本T检验”,打开单样本T检验对话框。
从源变量清单中将“产品数量”向右移入“检验变量”框中。
在“检验值”框里输入一个指定值(即假设检验值,本例中假设为90),T检验过程将对每个检验变量分别检验它们的平均值与这个指定数值相等的假设。
(1)单样本统计表分别给出样本的容量、均值、标准差和平均标准误。
本例中数量平均均值为92.6667。
(2)单样本检验统计表中t表示所计算的T检验统计量的数值,本例中为-2.596。
Sig表示统计量的P-值,Sig.=0.032>0.05,说明样本均值与检验值90有显著差异。
样本均值与检验值偏差的95%置信区间为(0.2975,5.0359).
即说明在95%的置信度下,该新型农药防治柑桔红蜘蛛比原农药具有显著效果。
(四)配对样本T检验
有如下数据:
用克矽平治疗矽肺患者10名,治疗前后血红蛋白含量如下
治疗前113150150135128100110120130
治疗后140138140135135120147114138
录入数据
选择菜单【分析】→【比较均值】→【配对样本T检验】,打开对话框
选项按钮的用于设置置信度选项,这里保持系统默认的95%
在主对话框中单击ok按钮,执行操作。
实验结果分析。
成对样本检验表给出了配对样本t检验结果和P值,结果显示P=0.203>0.05,所以认为克矽平治疗矽肺患对血红蛋白含量没有显著影响。
实验四:
方差分析(杨宇轩2013516169)
一、问题描述
了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理,能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作。
二、实验原理
在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。
例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。
为此引入方差分析的方法。
方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。
若存在显著差异,则说明该因素对各总体的影响是显著的。
方差分析有3个基本的概念:
观测变量、因素和水平。
观测变量是进行方差分析所研究的对象;因素是影响观测变量变化的客观或人为条件;因素的不同类别或不通取值则称为因素的不同水平。
在上面的例子中,农作物的产量和商品的销量就是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。
在方差分析中,因素常常是某一个或多个离散型的分类变量。
根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;根据因素个数,可分为单因素方差分析和多因素方差分析。
在SPSS中,有One-wayANOVA(单变量-单因素方差分析)、GLMUnivariate(单变量多因素方差分析);GLMMultivariate(多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。
本节仅练习最为常用的单因素单变量方差分析。
三、实验演示内容与步骤
单因素方差分析也称一维方差分析,对两组以上的均值加以比较。
检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。
并可以进行两两组间均值的比较,称作组间均值的多重比较。
主要采用One-wayANOVA过程。
采用One-wayANOVA过程要求:
因变量属于正态分布总体,若因变量的分布明显是非正态,应该用非参数分析过程。
若对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用RepeatedMeasure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。
假设为了研究我国部分地区GDP是否存在显著差异,在每个地区随机抽取几个城市进行调查统计,
选择菜单【分析】→【比较均值】→【单因素方差分析】,依次将观测变量销量移入因变量列表框,将因素变量地区移入因子列表框。
单击两两比较按钮,如图4.2,该对话框用于进行多重比较检验,即各因素水平下观测变量均值的两两比较。
方差分析的原假设是各个因素水平下的观测变量均值都相等,备择假设是各均值不完全相等。
假如一次方差分析的结果是拒绝原假设,我们只能判断各观测变量均值不完全相等,却不能得出各均值完全不相等的结论。
各因素水平下观测变量均值的更为细致的比较就需要用多重比较检验。
假定方差齐性选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件下的多种检验方法。
这里选择最常用的LSD检验法;未假定方差齐性选项栏中给出了在观测变量不满足方差齐性条件下的多种检验方法。
这里选择Tamhane’sT2检验法;Significancelevel输入框中用于输入多重比较检验的显示性水平,默认为5%。
单击选项按钮,弹出options子对话框,如图所示。
在对话框中选中描述性复选框,输出不同因素水平下观测变量的描述统计量;选择方差同质性检验复选框,输出方差齐性检验结果;选中均值图复选框,输出不同因素水平下观测变量的均值直线图。
在主对话框中点击ok按钮,可以得到单因素分析的结果。
实验结果分析:
表4.1给出了不同地区GDP的基本描述统计量以及95%的置信区间。
下表给出了Levene方差齐性检验结果。
从表中可以看到,Levene统计量对应的p值大于0.05,所以得到不同地区GDP满足方差齐性的结论。
方差齐性检验
GDP
Levene统计量
df1
df2
显著性
2.125
3
9
.167
下表是单因素方差分析,输出的方差分析表解释如下:
总离差SST=2.667E8,组间平方和SSR=1.640E8,组内平方和或残差平方和SSE=1.027E8,相应的自由度分别为3,9,12;组间均方差MSR=54660830.731,组内均方差11411666.167,F=4.790,由于p=0.029>0.05说明在α=0.05显著性水平下,F检验是显著的。
即认为各个地区的GDP相差不大。
ANOVA
GDP
平方和
df
均方
F
显著性
组间
1.640E8
3
54660830.731
4.790
.029
组内
1.027E8
9
11411666.167
总数
2.667E8
12
如前所述,表中上半部分为LSD检验结果,下半部分为Tamhane检验结果。
由于方差满足齐性,所以这里应该看LSD检验结果。
表中的Meandifference列给出了不同地区GDP的平均值之差。
其中后面带“﹡”号的表示GDP有显著差异,没有带“﹡”号的表示没有显著差异。
可以看出,东部和西部GDP存在显著差异,而中部与东部、中部与西部GDP并没有什么显著差异。
这一结论也可以从表中Sig列给出的p值大小得到印证。
实验五相关分析与回归分析(杨宇轩2013516186)
一、问题描述
学习并使用SPSS软件进行相关分析和回归分析,具体包括:
(1) 皮尔逊pearson简单相关系数的计算与分析
(2) 学会在SPSS上实现一元及多元回归模型的计算与检验。
(3) 学会回归模型的散点图与样本方程图形。
(4) 学会对所计算结果进行统计分析说明。
二、实验原理
1.相关分析的统计学原理
相关分析使用某个指标来表明现象之间相互依存关系的密切程度。
用来测度简单线性相关关系的系数是Pearson简单相关系数。
2.回归分析的统计学原理
相关关系不等于因果关系,要明确因果关系必须借助于回归分析。
回归分析是研究两个变量或多个变量之间因果关系的统计方法。
其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。
回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。
线性回归数学模型如下:
在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数:
回归模型中的参数估计出来之后,还必须对其进行检验。
如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量和解释变量及其函数形式,或者对数据进行加工整理之后再次估计参数。
回归模型的检验包括一级检验和二级检验。
一级检验又叫统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性,具体又可以分为拟和优度评价和显著性检验;二级检验又称为经济计量学检验,它是对线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等。
三、实验演示内容与步骤
(一)连续变量简单相关系数的计算与分析
财政收入,税收,GNP,进口总额4个指标来衡量我国经济运行状况。
本实验利用SPSS对这4个指标的相关性进行检验。
操作步骤与过程:
依次选择“【分析】→【相关】→【双变量】”打开对话框如图,将待分析的4个指标移入右边的变量列表框内。
其他均可选择默认项,单击ok提交系统运行。
结果分析:
表给出了Pearson简单相关系数,相关检验t统计量对应的p值。
相关系数右上角有两个星号表示相关系数在0.01的显著性水平下显著。
财政收入,税收,GNP,进口总额4个变量之间的相关性较弱。
(二)一元线性回归分析
财政收入与税收的回归模型
在这个例子里,考虑税收对财政收入的影响,建立的模型如下:
其中,yi是税收,xi是年财政收入
线性回归分析的基本步骤及结果分析:
(1)绘制散点图打开数据文件,选择【图形】-【旧对话框】-【散点/点状】,如图所示。
选择简单分布,单击定义,打开子对话框,选择X变量和Y变量,如图所示。
单击ok提交系统运行,结果见图所示。
从下图可直观地看出税收与财政收入之间存在线性相关关系。
(2)简单相关分析
选择【分析】—>【相关】—>【双变量】,打开对话框,将变量“财政收入”与“税收”移入variables列表框,点击ok运行,结果如表所示。
从表中可得到两变量之间的皮尔逊相关系数为0.966,双尾检验概率p值尾0.000<0.05,故变量之间显著相关。
根据旅游支出与年收入之间的散点图与相关分析显示,税收与财政收入之间存在显著的正相关关系。
在此前提下进一步进行回归分析,建立一元线性回归方程。
(3)线性回归分析
步骤1:
选择菜单“【分析】—>【回归】—>【线性】”,打开LinearRegression对话框。
将变量旅游支出y移入Dependent列表框中,将年收入x移入Independents列表框中。
在Method框中选择Enter选项,表示所选自变量全部进入回归模型。
步骤2:
单击Statistics按钮,如图在Statistics子对话框。
该对话框中设置要输出的统计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 试验报告 小组 实验 报告 闫凯华组