研究生“数理统计”课程课外作业Word文件下载.docx
- 文档编号:909428
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:12
- 大小:679.48KB
研究生“数理统计”课程课外作业Word文件下载.docx
《研究生“数理统计”课程课外作业Word文件下载.docx》由会员分享,可在线阅读,更多相关《研究生“数理统计”课程课外作业Word文件下载.docx(12页珍藏版)》请在冰点文库上搜索。
从国家安全战略角度看,我国人口众多、农业受自然风险和市场风险影响较大,在国民经济发展全局中,粮食始终被视为特殊商品和战略物资,如果放松国内粮食生产,过度依赖国际市场,在战略上极易受制于人,在关系国家生存发展的国际竞争中处于被动。
因此对全国粮食生产总量的预测与控制具有重要的战略意义,本文选取了四个个可能影响粮食生产总产量的因素:
播种面积、有效灌溉面积、化肥施用量、主要农业机械拥有量,参考《中国统计年鉴》得到了因变量——粮食总产量与各个可能影响因素在1997-2013年具体数额,并对其做线性回归分析,得出“最优”回归模型,并对模型的相关问题进行讨论。
这四个数据中播种面积和有效灌溉面积最为直接的影响了粮食产量,而化肥施用量和农业机械拥有量则是随着时代的发展,在农业生产中扮演着越来越重要的角色,尤其是农业机械拥有量,将人工种植时代带向了机械化时代,这对于生产效率是一个极速的提升。
二、数据描述(用表格表达数据信息,指出数据来源或提供原始数据)
本文在进行统计时,查阅《中国统计年鉴》中收录的1997-2013年全国粮食总产量、播种面积、有效灌溉面积、化肥施用量、农业机械拥有量相关数据,并将粮食总产量作为因变量,其余各项数据为自变量,经过整合后,具体数据如表2-1所示。
表2-11997-2013年全国粮食产量及可能影响因素统计表
年份
1997
49417.1
112912
51238.5
3980.7
42015.6
1998
51229.5
113787
52295.6
4083.7
45207.7
1999
50838.6
113161
53158.4
4124.3
48996.1
2000
46217.5
108463
53820.3
4146.4
52573.6
2001
45263.7
106080
54249.4
4253.8
55172.1
2002
45705.8
103891
54354.9
4339.4
57929.9
2003
43069.5
99410
54014.2
4411.6
60386.5
2004
46946.9
101606
54478.4
4636.6
64027.9
2005
48402.2
104278
55029.3
4766.2
68397.8
2006
49804.2
104958
55750.5
4927.7
72522.1
2007
50160.3
105638
56518.3
5107.8
76589.6
2008
52870.9
106793
58471.7
5239.0
82190.4
2009
53082.1
108986
59261.4
5404.4
87496.1
2010
54647.7
109876
60347.7
5561.7
92780.5
2011
57120.8
110573
61681.6
5704.2
97734.7
2012
58958.0
111205
62490.5
5838.8
102559.0
2013
60193.8
111956
63473.3
5911.9
103906.8
注:
、、、、分别代表粮食总产量(万吨)、播种面积(千公顷)、有效灌溉面积(千公顷)、化肥施用量(万吨)、主要农业机械拥有量。
三、模型建立:
由表2-1数据可知,粮食生产总量与其各个影响因素之间可能存在一定的线性关系,因此初步先考虑用线性回归模型建立粮食生产总量与其各个因素的相关关系,并剔除不显著的变量进行定量分析。
然后对分析结果进行显著性检验,验证结果的合理性。
(1)提出假设条件,明确概念,引进参数;
我们假设粮食生产总量与其各个因素之间存在线性相关关系,其中,随机因素满足高斯-马尔科夫假设,并服从正态分布。
回归分析是研究变量之间相关关系的一种常用的统计方法。
其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。
回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。
由于粮食生产总量的影响因素不止一个,因此应该建立多元线性回归模型。
本文,共选取了播种面积、有效灌溉面积、化肥施用量和农业机械工具拥有量等4个可能对粮食生产总量产生影响的因素,因此,引进4个变量、、、分别表示四个影响因素,用因变量表示粮食生产总量。
然后利用方差分析对回归模型本身的显著性进行检验。
方差分析就是根据实验结果进行分析,鉴别各因素对实验结果的影响程度的一种有效方法。
方差分析的基本假定:
①总体相互独立,且,其中未知;
②在各总体Yi下,诸独立同分布,且
(2)模型构建;
①多元线性回归模型的构建:
本文选取粮食总产量为因变量,播种面积、有效灌溉面积、化肥施用量、农业机械工具拥有量为自变量,建立如下统计模型:
其中,,,,是与,,,无关的未知参量,是不可观测的随机变量,满足高斯-马尔科夫假设,并且。
选择最优回归方程时,选用逐步回归法,它的基本思想是将一个变量引入,引入的条件是该变量的偏F检验是显著的。
同时,每引入一个新变量后又要对老变量逐个检验,将变得不显著的变量从回归模型中剔除。
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
由此可见,逐步回归法是向前法和向后法的一种结合。
②方差分析模型的构建:
由于将回归模型当成一个因素,因此构建单因素方差分析的数学模型为:
其中,
另外,记,则:
总离差平方和:
组间差平方和:
组内差平方和:
统计量
(3)模型求解及模型检验。
将表2-1中的数据保存为excel表,然后录入SPSS,生成数据文件,如图3-1所示。
包括1997年到2013年我国粮食总产量(万吨)以及播种面积(千公顷)、有效灌溉面积(千公顷)、化肥施用量(万吨)和农业机械拥有量(个数)。
图3-1SPSS软件中导入的Excel数据
各个变量的描述性统计量如图3-2所示,包括平均值、标准差以及观测数量。
图3-2观测值统计量
如图3-3所示,给出输入、剔除的变量,从表中我们可以看出播种面积、有效灌溉面积和化肥施用量称为输入变量,而农业机械拥有量被剔除。
图3-3输入/剔除变量表
图3-4给出了模型整体拟合效果的概述,从表中我们可以看出,模型1的拟合优度系数为0.838,模型2的拟合优度系数为0.969,模型3的拟合优度系数为0.985,模型4的拟合优度系数为0.984,反映了因变量与自变量之间具有高度显著的线性关系,当只输入有效灌溉面积时,拟合度稍低。
但是DW=1.465,可能存在序列相关。
图3-4模型总汇
如图3-5所示,为方差分析表,可以看出模型1回归平方和为2.670E8,残差平方和为1.135E8,模型2回归平方和为3.575E8,残差平方和为2.299E8,模型3回归平方和为3.689E8,残差平方和为1.155E8,模型4回归平方和为3.687E8,残差平方和为1.176E8,模型2到模型3相比于模型1,回归平方和都解释了总平方和的更大部分,此外,根据F统计量与Sig可知,模型1的显著性稍低,其余的模型显著性都很高。
图3-5方差分析表
如图3-6所示为已排除变量表,从中可以看出,各个模型中被排除的变量。
图3-6已排除变量表
如图3-7所示为共线性诊断图,可以看到四个模型中的条件索引均大于15,因此可以认定四个模型都存在线性相关。
图3-7线性诊断图
如图3-8所示为残差统计图,图中给出了预测值、残差、标准预测值和标准残差,可以看到标准残差的绝对值最大为1.607<
3,因此不存在奇异值。
图3-8残差统计图
如图3-9和图3-10所示,分别为残差分布直方图和正态概率P-P图。
从图中可以看到,回归后的实际残差基本符合前文对于残差正态分布的假设,随然图3-9中显示残差不是很明显的服从正态分布,但是考虑到样本数量少,且图3-10显示即基本在斜线附近,因此我们可以认为残差分布为正态分布。
图3-9残差分布直方图
图3-10正态概率P-P图
在以上建模分析过程中,通过逐步回归法,在保留与剔除后,得出了4个较为合适的模型,然后对这四个模型进行方差分析、残差正态性检验等,通过对四个模型的拟合优度系数,回归平方和占总平方和的比例,最终选择了模型3。
如图3-11所示为系数表,选择模型3,从表中确定因素播种面积、有效灌溉面积和化肥施用量的系数,即,我们认为它的拟合效果是最好的,更能真实反映近几年全国粮食总产量。
图3-11系数表
下面分别从线性回归模型的显著性检验和回归系数的显著性检验对模型3进行说明。
①线性回归模型的显著性检验
与一元线性回归情况类似,如果整个对Y的影响不显著,则回归模型中的系数。
因此,提出假设检验
采用F检验法,利用单因素方差分析计算F统计量。
从图3-5可以看出,F统计量为138.371,对应的p值为0,所以,拒绝模型整体不显著的原假设,即认为Y与之间的线性相关关系显著。
②回归系数的显著性检验
另外,还必须检验每个统计量的显著性。
如果对Y的作用不显著,那么应为零,也就是检验:
其拒绝与形式为。
当成立时,有检验量对于给定的显著性水平,拒绝域的临界值为。
这里选,从图3-11中可以看出只有播种面积和化肥施用量的t统计量对应的p值小于显著性水平0.05,因此,在0.05的显著性水平下只有播种面积和化肥施用量通过了t检验。
剔除了不显著的变量后,回归方程变为一元线性的,如下所示:
与通过图表得到的结果相比,后者剔除掉了有效灌溉面积这一因素,通过上文中的图3-4和图3-5可知,模型3和模型4的指标相差无几,因此可以认为二者可以等同。
四、计算方法设计和计算机实现。
本次统计分析计算方法主要是先采用多元线性回归分析模型对全国粮食总产量及其影响因素进行分析,得出相应的多元线性回归函数,然后分别对模型和回归系数进行显著性检验,得出结果。
本次实验使用SPSS软件进行统计分析。
步骤如下:
1)从中国2011年统计年鉴中找出相应数据,建立相应的Excel表格,然后将其导入SPSS软件中。
如图3-1所示,实现代码如下所示:
GETDATA
/TYPE=XLS
/FILE='
F:
\课件\数理统计\data.xls'
/SHEET=name'
Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
2)使用SPSS软件进行数据描述统计。
实现代码如下所示:
DESCRIPTIVESVARIABLES=粮食总产量播种面积有效灌溉面积化肥施用量农业机械拥有量 /STATISTICS=MEANSTDDEV.
3)使用SPSS软件进行回归分析。
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSRANOVACOLLINTOL
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN/DEPENDENT粮食总产量
/METHOD=STEPWISE播种面积有效灌溉面积化肥施用量农业机械拥有量
/RESIDUALSDURBINHIST(ZRESID)NORM(ZRESID).
五、主要的结论或发现。
通过以上建立模型,求解模型以及显著性检验,我们可以看出,播种面积和化肥施用量对全国粮食产量的影响最为显著,而有效灌溉面积相比于它们显著性较弱,但也有一定的影响。
农业机械拥有量对与粮食总产量的影响最小,但是依然存在线性关系。
六、结果分析与检验。
通过回归分析我们得到多元线性回归函数:
其中,Y表示全国粮食总产量,表示播种面积,表示有效灌溉面积,表示化肥施用量。
通过显著性检验数据,我们得知模型的拟合程度很好,又F=138.371,对应的p值为0,我们得出模型显著的结论。
另外,播种面积和化肥施用量的t检验对应的p=0<
0.05,即p值小于规定的显著性水平,因此,播种面积和化肥施用量对居民消费价格指数的线性影响显著。
而其余两项的t检验对应的p值均大于显著性水平0.05,因此认为它们对全国粮食总产量的影响不显著。
最后得出全国粮食总产量与播种面积和化肥施用量成显著线性相关关系的结论。
参考资料
[1]杨虎,刘琼荪.数理统计.高等教育出版社.2004.10
[2]吕振通,张凌云.SPSS统计分析与应用[M].北京:
机械工业出版社,2009.
[3]何晓群.现代统计分析与应用.中国人民大学出版社.2007,8.
[4]林彬.多元线性回归分析及其应用.中国科技信息.2010.9
[5]国家统计局.中国统计年鉴[M].中国统计出版社,2014
[7]韩中庚.数学建模方法及其应用[M].北京:
高等教育出版社,2005
附录
SPSS软件导出文档。
11/11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 数理统计 课程 课外 作业