完整版基于蒙特卡罗方法的回归模型合理性研究毕业设计.docx
- 文档编号:14382185
- 上传时间:2023-06-22
- 格式:DOCX
- 页数:23
- 大小:180.53KB
完整版基于蒙特卡罗方法的回归模型合理性研究毕业设计.docx
《完整版基于蒙特卡罗方法的回归模型合理性研究毕业设计.docx》由会员分享,可在线阅读,更多相关《完整版基于蒙特卡罗方法的回归模型合理性研究毕业设计.docx(23页珍藏版)》请在冰点文库上搜索。
完整版基于蒙特卡罗方法的回归模型合理性研究毕业设计
编号
楚雄师范学院
本科生毕业论文(设计)
题目基于Monte-Carlo方法的回归模型合理性研究
专业信息与计算科学
年级班级09级3班
学生姓名白晴
指导教师杨新平职称:
副教授
教务处印制
目录
摘要.........................................................................
关键词.......................................................................
Abstract.....................................................................
Keywords.....................................................................
前言.........................................................................
第1章理论准备..............................................................
1.1蒙特卡罗方法的基本思想...................................................
1.2一元线性回归分析.........................................................
1.2.1回归模型简介...........................................................
1.2.2回归参数的估计.........................................................
1.2.2.1和参数的点估计..................................................
1.2.3相关系数的检验.........................................................
1.2.3.1离差平方和之间的关系.................................................
1.2.3.2决定系数与相关系数...................................................
1.2.4的估计..............................................................
第2章模型建立............................................................
2.1线性回归过程.............................................................
2.2蒙特卡罗实验.............................................................
2.3结论.....................................................................
2.4模型评价.................................................................
参考文献.....................................................................
附录.........................................................................
致谢.........................................................................
基于Monte-Carlo方法的回归模型合理性研究
摘要:
本文针对文献中使用汽车车轮弯沉数据所建立的模型进行分析,发现模型的正态假设有一定的问题,在此基础之上,用Monte-Carlo方法重新生成新的样本,并建立模型,发现新的模型与文献中的模型有差异,表明原模型的正态假设不满足,原模型不具有适用性。
关键字:
统计检验;蒙特卡罗方法;一元线性回归模型;汽车弯沉值
RationalityofregressionmodelresearchbasedonMonteCarlomethod
Abstract:
Basedonthedataofcarwheeldeflectionvalueoftheliteraturetocarryonthemodelanalysis,thispaperfindsthatthemodelassumptionofnormalityhassomeproblems.Onthisbasis,thenewmodelisestablishedwiththeMonte-Carlomethodtoregenerateanewsampleandfindsthenewmodelandthemodelintheliteraturehavedifferences.Thus,thepaperdrawaconclusionthattheoriginalmodelofthenormalityassumptionisnotmetandhasnoapplicability.
Keywords:
statisticaltest;MonteCarlomethod;alinearregressionmodel;carwheeldeflectionvalue
前言
弯沉是指在固定的轴载作用下,路基或路面表面轮隙位置产生的总垂直变形(总弯沉),以0.01mm为单位。
在此之前有人做过汽车弯沉检测车辆修正系数[8][65-67],也把修正系数求出来,但都只是一个结论。
本文基于前人试验的数据,把回归过程用SPSS来实现,建立了一元线性回归模型,结合统计检验方法对回归模型进行检验,再用Monte-Carlo方法,在SPSS中产生标准正态分布随机数,对模型合理性再次检验,从而总结出了一套更系统、更合理的计算弯沉检测车辆修正系数的方法。
本文是在大样本下进行分析处理的,样本数为,因此样本总体服从正态分布。
假设汽车车轮下未垫钢板时测得的数据用变量来表示,车轮下垫钢板时测得的数据用变量来表示。
第1章理论准备
1.1蒙特卡罗方法的基本思想
蒙特卡罗(MonteCarlo)方法也称为随机模拟方法,它的基本思想是,首先建立一个概率模型或随机过程,使它的参数等于问题的解;然后通过对抽样试验来计算所求参数的统计特征,最后给出所求解的近似值。
而解的精确度可用估计值的标准误差来表示。
假设是随机变量且数学期望,那么近似确定的方法是对进行
次重复抽样,产生相互独立的值得序列、、、,并计算其算术平均值:
根据柯尔莫哥罗夫加强大数定理有
,
因此,当充分大时,下试
成立的概率等于1,亦即可以用作为所求量的估计值。
1.2一元线性回归分析
1.2.1回归模型简介
如果一个自变量(解释变量)与一个因变量(被解释变量)所形成的的关系是线性相关关系,即值随着的改变而改变,则可以通过建立一元线性模型来描述与的关系。
而将所建的一元线性模型称为一元回归模型,表示为
(1—1)
其中为总体回归直线的截距,为总体回归直线的斜率,为随机误差项,为样本量。
公式(1—1)称为关于的一元线性回归模型。
从模型可以看到,因变量由两部分构成:
一部分是由线性函数构成的确定性数值,另一部分是由决定的随机变量数值。
一元线性回归模型准确地表示了自变量与因变量的线性相关关系。
即当给定一个值时,的数值主要会随线性函数部分而变化,但是由于的存在,所以值仍然是不确定的,是随机的。
回归模型是从总体的角度描述自变量与因变量的关系。
因此,模型中的和就是从总体上说明与变量关系的系数,但它们的数值在实际中是不可能得到的,只能通过样本数据得到它们的估计值。
而且对这些参数估计时,必须在满足一些基本假设条件下进行。
这些假设是:
(1)是随机变量,且。
随机误差项分布的均值为零的含义是:
虽然随机因素对被解释变量有影响,但从平均意义上来说,其影响为零,从而在给定的情况下,被解释变量的平均水平完全由解释变量确定。
随机误差项方差恒定,称为同方差,其具体含义是:
虽然各个随机误差项的取值是不同的,但是方差是相同的,违背该假设就成为异方差。
(2)随机变量与相互独立。
随机误差项之间互不相关的具体含义是:
对应于任意两个不同的值,随机误差项互不相关,因而各个被解释变量之间也是不相关的。
在正态分布的假定下,不相关等价于独立。
违背这个假定,就称为误差项自相关。
(3)与自变量相互独立。
解释变量是非随机的,换句话说,在重复抽样下,的取值是确定不变的。
1.2.2回归参数的估计
回归分析的任务就是恰当的方法估计出参数,,并且使估计出来的参数有良好的统计特性。
如果有个不全相等的,,,做独立试验,可以得对样本数据,,,。
通过这些数据即可得到回归函数的估计,即
(1—2)
其中和分别作为和的估计值,就是称为关于的一元线性回归方程,其图形是回归直线。
1.2.2.1和参数的点估计
和的估计值和可以通过最小二乘法计算得到。
如果回归函数为,可以假设一元线性回归方程为。
假定对样本数据,,,为已知,现在需要确定通过这些点的哪一条直线描述与最好。
根据最小二乘法建立回归直线的原则就是:
使得估计值与的离差平方和最小。
因此设
(1—3)
将代入公式(1—3)中,有
(1—4)
根据微分学中求极值的原理,对公式(1—4)中的和分别求一阶偏导数,并令一阶偏导数为零,即有
经整理,可得到两个二元一次方程
解上述方程组,即可求出的和的值:
,
所求和即为和的点估计值,将和的值代入(1—2)中,可得到一元线性回归方程:
.
1.2.3相关系数的检验
1.2.3.1离差平方和之间的关系
与是否具有相关关系,可以通过值是否随值得变动来解释。
当给定时,的实际值与的差值就是值随值的全部变化,称之为总变差,用表示。
在这全部变差中,一部分变差可以用设定的回归方程来解释,即的部分,我们称之为回归变差。
另一部分变差是设定的回归方程所不能解释的,称为剩余变差,用表示。
对于任意给定的总有
成立。
因此,可以利用变差之间的数量关系确定变量之间的联系程度。
如果在总变差中,回归变差所占的比例越大,则说明值随值的变化越显著,或者说解释的能力越强。
反之,回归变差在总变差中所占的比例越小,则说明值随值的变化越不显著,或者说解释的能力很差。
对于所有的数据点,因为,所以可以证明:
(1—5)
其中称为总离差平方和,称为剩余平方和,称为回归平方和。
1.2.3.2决定系数与相关系数
根据公式(1—5)离差平方和之间的关系,利用回归平方和与总离差平方和的比值来说明与的相关性,即有
称为决定系数,也称为可决定系数。
其含义是:
在全部变差中研究者所设定的回归方程能够解释的部分所占的比例。
因此从理论上说,的取值应在之间,其值越接近于,说明相关程度越高。
特别的,在研究一元线性关系时,为简化起见,将开方,用表示,即,称为相关系数,在实践中经常使用简化的形式,即
相关系数的取值范围是.当时,表示与是正相关关系,即当增加(减少)时,也随之增加(减少)。
当时,表示与是负相关关系,即当增加(减少)时,却随之减少(增加)。
通过的数值,一方面可以判断与的相关性,另一方面可以说明线性相关的程度。
1.2.4的估计
,的方差都含有随机扰动项的方差,而总体随机扰动项的实际上是未知的,因此实际上无法计算和真实值的方差,这就需要对进行估计。
我们定义
(1—6)
它是关于的无偏估计量。
第2章模型建立
2.1线性回归过程
将数据导入SPSS窗口,定义变量名:
(车轮下不垫钢板测得的弯沉值)、(车轮下垫钢板测得的弯沉值);画图,执行GraphsScatter/DotSimpleScatter命令,以为轴,以为轴,画散点图,如图所示
图2—1
从图可以看出随变化而变化,说明与之间呈现线性关系。
执行AnalyzeRegressionLinearLinearRegression将(车轮下不垫钢板)移入Independent(s)(自变量)框中,把移入Dependent(因变量)框中Continue;StatisticsRegressionCoefficientsEstimates、ModelfitDurbin-Watson、Casewisediagnostics、Outliersoutside,并在后面的方框中改为2,即大于两个标准差单位的观测值就认为是异常值。
Plots将ZPRED(标准化预测值)选入框中,把ZRESID(标准化残差)移入框中Normalprobabilityplot、Histogram,以便检验残差的正态性和方差齐性。
SaveUnstandardized(未经标准化预测值)、Standardized、StudentizedMean、IndividualContinue。
单击Option按钮,采用系统默认设置。
最后单击OK,输出结果及分析如下:
自变量进入或剔除情况表表,如表所示
表2—1
表中的模型中只有一个自变量。
模型拟合的总体情况表,如表所示。
表2—2
由表知复相关系数,与的相关为;确定系数,说明模型的拟合优度非常高;经过校正的系数为,也说明模型的拟合优度非常高;误差的独立性检验检验的值为,查检验表知,可以说明残差与自变量之间相互独立。
回归方程检验的方差分析表,如表所示
表2—3
表中列出了回归项和残差项的平方和、自由度和均方,还列出了值以及值。
从表中可以看出,回归方程是显著的,,,说明(车轮下垫钢板测得的弯沉值)受(车轮下不垫钢板测得的弯沉值)的显著影响;剩余平方和(残差平方和)为。
回归系数估计及其检验表,如表所示。
表2—4
表中显示回归模型中的回归系数是:
Constant(常数项,即回归直线截距)为,自变量系数为,由此可知该分析的非标准化回归方程可以写为:
,标准化回归方程为:
。
从表中也可看出回归系数的显著性水平为,表明统计量检验假设“回归系数等于的概率为远小于”,同样说明了量变量之间的线性相关关系极为显著,建立的回归方程是有效的。
异常值诊断表,如表所示
表2—5
在此如果标准化残差的绝对值超过,就称为异常值。
表中依次列出了所有异常值的编号、标准化残差大小、因变量取值、因变量的预测值以及残差,从表可以看出所用的数据异常值不是很多,只有4个。
残差统计量表,如表所示
表2—6
表中列出了预测值、标准预测值、预测值标准误差、经调整的预测值、非标准化残差、标准化残差、学生化残差、标准化学生残差、剔除残差、标准化剔除残差、马氏距离、库克距离以及中心杠杆值。
横行依次列出上述各值的最小值、最大值、均值、标准差以及参与计算得观测量数目。
图描绘了残差的正态分布。
从图中可以看出,代表残差值的点分布在对角线两旁,可以判定残差是近似服从正态分布的,从而证明样本是近似来自正态分布的总体。
图描绘了标准化残差的直方图,从图中可知标准化残差的均值为,方差为,约等于,因此近似服从标准正态分布。
图描绘了标准化预测变量与标准化残差的散点图,图中各点随机分布在一条穿过零点的水平直线的两侧,说明残差的分布是常数,从而说明残差方差齐性。
图2—2
图2—3
图2—4
2.2蒙特卡罗实验
下面看用正态数据生成模型的样本,看系数变化大小,变化大说明原始数据不满足正态性假定。
蒙特卡罗实验:
给定的值,从的正态分布中抽取随机数,将这些随机数和的值代入回归模型
(1)中,计算相应的值,这是我们从回归模型
(1)中抽取的样本,再与进行最小二乘估计,产生新的样本回归模型,这一过程称为蒙特卡罗实验。
在上述建立的一元线性回归模型:
下,由表知残差平方和为,利用公式(1—6)可计算出随机扰动项的方差的估计值为,标准差为。
从标准正态分布中随机抽取值,执行TransformCompute命令,ComputeVariable/TargetVariable(目标变量)输入变量名randomType&Label(类型或标签)中输入“标准正态随机数”,FunctiongroupRandomNumbers(随机数)FunctionandSpecialVariables(函数和特殊变量)Rv.Normal,将其移入NumericExpression矩形框中,在两个问号处分别输入和,即产生的,点击OK。
从而得到一组的随机数据,将新产生的随机数代入已建立的模型,此过程在Eviews软件中进行,打开Eviews窗口,执行FileNewWorkfile,在WorkfileRange窗口下的Workfilefrequency栏下选择Undatedorirregular,在Startdate矩形框中输入,Enddate矩形框中输入;然后在命令窗口输入
得到系列、、(即得到的新的样本值)。
在一元线性回归模型中,满足假设的最小二乘估计量,具有无偏性和方差最小性,并且在随机误差项服从正态分布的假定下,估计量也服从正态分布。
基于和上述产生的的样本值,对样本回归模型进行估计,记录估计的系数和方差。
重复上述过程次,就产生系数的个估计值,求这个估计值点的平均数,如果估计值的均值近似等于总体回归模型(原样本回归模型)的真实值,就可以反映估计量的无偏性。
把算得的的值导入窗口,再与原来做最小二乘回归,过程与第一次建立模型时一样,得到结果如表、、、、、所示,得到新的散点图,如图,回归直线图如图。
表2—8
由表知,模型中只有一个自变量。
表2—9
由表知复相关系数,与的相关为;确定系数,说明模型的拟合优度非常高;经过校正的系数为,也说明模型的拟合优度非常高;误差的独立性检验检验的值为,约等于,可以说明残差与自变量之间相互独立。
表2—10
从表中可以看出,回归方程是显著的,,,说明(产生的的新样本)受(车轮下不垫钢板测得的弯沉值)的显著影响;剩余平方和(残差平方和)为。
表2—11
表中显示回归模型中的回归系数是:
Constant(常数项)为,自变量系数为,由此可知该分析的非标准化回归方程可以写为:
,标准化回归方程为:
。
从表中也可看出回归系数的显著性水平为,表明统计量检验假设“回归系数等于的概率为远小于”,说明建立的回归方程是有效的。
但对于常数项的影响较大,从-0.84变为-2.635。
表2—12
由表知样本异常值只有两个。
表2—13
图2—4
图描绘了标准化预测因变量与标准化残差的散点图,图中各点随机分布在一条穿过零点的水平直线的两侧,说明残差的分布是常数,即说明残差方差齐性。
图2—5
在这里我们重复上述过程次,分别得到和的个估计值,将其导入窗口,执行,依次得到和估计值的频率分布图,如图、所示。
从图、中可以看出和的均值分别为和近似等于真值和,从而通过蒙特卡罗模拟仿真的方法直观地描绘了最小二乘估计量的无偏性。
图2—6
图2—7
2.3结论
由上述分析过程可知回归系数的估计值变化不大,但常数估计值变化较大,因此可得出总体回归系数有正态性,而总体常数项有偏正态性,正态性这项假定只能是近似的。
2.4模型评价
此模型已比较好,也利用蒙特卡罗方法即做蒙特卡罗实验(在这里重复100次)验证估计系数的无偏性,验证如所期待的那样都说明用最小二乘估计出的系数估计量是无偏的,也就是最优的。
但模型中常数项变化较大,只能说明正态性这项假定只能是近似的。
在使用做蒙特卡罗过程中,由于重复的次数较多,如果能设计一个程序的话就不用那么麻烦;还有虽然从估计值的频率分布直方图中可以看出和估计值的均值与真实值很相近,但从图中也可看出有些区间数的频率大很多。
参考文献
[3]王少平,杨继生,欧阳志刚.计量经济学[M].北京:
高等教育出版社,2011:
15-27.
[5]易丹辉.数据分析与应用[M].北京:
中国统计出版社,2002:
1-50.
[6]茆诗松,王静龙,濮晓龙.高等数理统计[M].北京:
高等教育出版社,德国:
施普林格出版社,[7]刘军.科学策略中的蒙特卡罗策略[M].
[8]杨朔,李友,李宏秋.利用一元线性回归的方法计算弯沉检测车辆修正系数[J].吉林交通科技,
附录
汽车弯沉值数据表
序列
x
y
1
110
117
2
100
106
3
114
121
4
100
109
5
130
138
6
170
181
7
148
157
8
132
140
9
160
170
10
182
193
11
160
170
12
130
142
13
148
163
14
140
149
15
112
119
16
146
155
17
162
172
18
180
191
19
112
125
20
200
212
21
152
161
22
134
142
23
140
150
24
180
196
25
110
117
26
160
175
27
160
182
28
130
138
29
110
117
30
130
145
31
150
159
32
160
170
33
120
125
34
120
127
35
200
215
36
118
125
37
180
191
38
160
175
39
134
146
40
118
125
41
180
198
42
134
152
43
118
130
44
106
113
45
160
170
46
118
132
47
130
135
48
130
140
49
160
172
50
140
144
51
150
156
52
100
106
53
150
162
54
120
127
55
148
157
56
126
134
57
106
113
58
158
168
59
100
108
60
144
159
61
160
175
62
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 基于 蒙特卡罗 方法 回归 模型 合理性 研究 毕业设计
![提示](https://static.bingdoc.com/images/bang_tan.gif)