第三次个人赛论文重点.docx
- 文档编号:8999603
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:23
- 大小:92.43KB
第三次个人赛论文重点.docx
《第三次个人赛论文重点.docx》由会员分享,可在线阅读,更多相关《第三次个人赛论文重点.docx(23页珍藏版)》请在冰点文库上搜索。
第三次个人赛论文重点
孙欢09数学1班座位号C9
观测站的重组与优化
摘要
本文是为了解决有关观测点的优化问题,即为达到减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小的目地。
本文提出的问题也是以从个别到一般的形式进行的,下面我们依次进行分析:
针对问题1,我们先将观测点7,8图像进行比较并通过SPSS相关性检验,得出其拟合度较高的结论,并以8为自变量,7为因变量,构建回归模型,用SPSS解得到观测点7的回归方程,并用F检验的得到符合题中假设。
针对问题2,先用分层聚类法求得大体分类和各类的组成,通过每组中方差的比较得出应当去掉哪些观测点,然后分别构建回归函数,并用F检验其是否合格,最终得到应该去掉观测点2,6,7。
同时我们用相关性和显著性来检验,得到相似度最高的也为2和3,6和7,8这两组。
针对问题3,我们先算出实际观测的各年平均降雨量,并用问题1,2中的回归方程得到被去掉观测点的估计值,并求出相应的均值。
最终用累计函数分布图得到小于10mm的概率约为0.777,大于20mm的概率为0.0555。
检验中,我们通过用不同软件(6SQ)的计算来检验得到的结论。
针对上面的问题,我们从观测值波动的角度提出了若去掉观测点8更合理的改进,经过计算我们得出了去掉8后拟合6,7。
P值(显著性指标更大,所以我们认为改进是合理的。
关键词:
回归模型,分层聚类,相似度和显著性
一、问题的提出与重述
问题的提出:
某市有10个县,每个县有一个气象观测站(位置如附录图1),每个气象观测站测得的年降水量即为该县的年降水量。
30年来各观测站测得的年降水量如附表1。
为了节省开支,想要适当减少气象观测站,但希望减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小。
请你选出这些观测站。
问题的重述:
1.第7个观测站和第8个观测站观测到的数据之间可能有相关关系,所以第7个观测站可以减少,第7个观测站的年降水量信息可以从第8个观测站观测到的数据中获取,问如何得出,并予以讨论。
2.除了观测点7还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。
3.如果以10个县年降水量的平均值为该市年平均降水量。
在减少观测站以前,每个县年降水量都是观测数据。
在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。
减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。
两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?
误差的绝对值大于20mm的概率是多少?
二、问题的分析
本题是希望我们选取一些作用不大的观测站,并予以淘汰。
要求既可以节省开支,又可以使得该市年降水量的信息量损失较小。
我们需要做的就是,找出哪些观测点间相关性大并发现相关观测点间的降雨量关系。
针对问题1我们先进行直观的作图观察,并可以用SPSS中的相关性检验来验证两观测点间是否相关性较大,然后通过构建回归模型得到观测点7的回归方程,从而可以模拟出观测点7的降雨量数据。
针对问题2我们可以先用分层聚类法大体得出分组和每组的成员,然后通过方差大小的比较得到应该去掉哪些观测点,并通过构建回归模型通过每组中留下的点得出除去的观测点的相关方程,并用F法检验其是否服从原假设(是否舍去)。
最后我们可以通过相关性检验来检验我们最终得到的点是否正确。
针对问题3我们列出未减少观测站时的年平均降水量。
再用减少后的观测站得出年平均降水量,求其差,得到绝对之后,将这些数据拟合并检验看其服从什么样的函数分布,然后通过所学的分布函数的相关知识计算出结果。
三、符号说明与模型假设
3.1符号说明
符号含义
第
个观测点的实际降雨量(
=3,8,10)
第
个观测点估测的降雨量(
=2,4,6,7)
回归拟合得到的系数(
=2,3,4,6,7,8,10)
第
观测点的标准差(
=2,3,4,6,7,8,10)
3.2模型假设:
(1)假设这段时间内没有洪涝灾害,干旱等自然灾害的影响。
(2)假设每个观测点成本都是一样的,不存在拆除观测点时成本不一的问题。
四、模型的建立与求解
4.1观察比较并得出相关性
我们先做出观测点7和8的雨量监测图,观察两观测点的图像变化趋势。
我们通过观察图像并且应用SPSS里的相关性检验,得出观测点7与8的拟合程度很高,所以我们建立回归模型,以观测点7为因变量,以观测点8自变量,假设回归方程为:
方法1:
用SPSS解得到:
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量
61.931
27.225
2.275
.031
6.163
117.699
VAR00002
1.022
.062
.952
16.507
.000
.895
1.149
a.因变量:
VAR00001
即:
方法2:
用MATLAB中regress命令解:
得到两个系数为61.9307和1.0219,所以我们可以认为SPSS解得值准确可靠。
因此我们可以用观测点8的降雨量数据来估算出观测点7的降雨量数据
此时我们需要用F法检验是否服从该假设
1.93
F=40.005>
,服从假设。
4.21分组
我们通过分层聚类法将所有检测站的树形图画出,如下图:
先以5为分组标准,我们初步得到分组情况为:
观测点1一组;观测点2,3一组;观测点9一组;观测点6,7,8一组;观测点4,10一组;观测点5一组,为检验我们所分的组及其组员是否准确:
下面我们考虑每组中哪一个观测站应该去掉。
我们去掉观测站的一局是该观测站的到的数据与附近的观测站拟合度很高,并且波动比同组中其他观测点小的点,所以我们选取标准差这一指标。
计算这几个观测站的标准差得到:
=93.618
=98.863
=129.197
=123.473
=80.3779
=77.5154
因为观测点8要用来拟合观测点7的数据,所以不能去掉观测点8,故这一组内只能去掉观测点6.
通过比较这几组数据得出应该去掉
4.22去掉观测点2
所以我们建立回归模型,以观测点3为自变量,以观测点2为因变量,假设回归方程为:
用SPSS求解得出:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量
111.444
38.046
2.929
.007
VAR00002
.957
.084
.906
11.356
.000
a.因变量:
VAR00003
得到
F=138.95>
服从假设。
4.23去掉观测点6
建立回归模型,以观测点8为自变量,以观测点6为因变量,假设回归方程为:
用SPSS求解得出:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量
52.819
37.325
1.415
.168
VAR00008
.945
.085
.903
11.135
.000
a.因变量:
VAR00006
得到:
F=123.98>
,服从假设。
4.24去掉观测点10
建立回归模型,以观测点10为自变量,以观测点4为因变量,假设回归方程为:
用SPSS求解得出:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量
459.103
80.729
5.687
.000
VAR00004
.042
.182
.043
.230
.820
a.因变量:
VAR00010
得到:
F=0.053<
所以拒绝假设,所以不能去掉观测点10
然后我们用相关性分析来验证我们去掉的点,用SPSS实现后得到如附表4.
得到相关性最强的点为2和3,6和7和8.与我们计算的结果一致。
4.31数据处理
1先计算未减少前观测点各年的平均值得到:
每年平均降雨量
2计算减少点后,所有观测点的降雨量及其均值(包括减少点的估计值)(见表5)为方便比较,我们在此列出减少点后的降雨量均值
3将上面两组数据做差求绝对值,得到:
去掉观测点前后历年市年均降雨量比较
年份
前均值
后均值
差绝对值
年份
前均值
后均值
差绝对值
1976
451.2
459.9533
8.7533
1991
528.8
536.9702
8.1702
1977
461.6
468.9471
7.3471
1992
565.6
550.3062
15.2938
1978
534.4
538.6287
4.2287
1993
459.2
462.9872
3.7872
1979
513.6
525.7999
12.1999
1994
523.2
515.6078
7.5922
1980
497.6
504.4871
6.8871
1995
440.8
449.4079
8.6079
1981
468
474.7425
6.7425
1996
624.8
622.3646
2.4354
1982
570.4
574.6156
4.2156
1997
580
582.5592
2.5592
1983
548
532.7545
15.2455
1998
577.6
577.0086
0.5914
1984
496
485.1002
10.8998
1999
484
476.3362
7.6638
1985
475.2
467.0926
8.1074
2000
474.4
479.2778
4.8778
1986
532
537.8846
5.8846
2001
432
426.9714
5.0286
1987
467.2
460.3274
6.8726
2002
527.2
527.0842
0.1158
1988
420
419.842
0.158
2003
516
518.9181
2.9181
1989
589.6
581.1915
8.4085
2004
464
460.3362
3.6638
1990
551.2
549.734
1.466
2005
555.2
561.5636
6.3636
4.32正态分布的假设和验证
我们将得到的数据进行正态分布假设,用ttest检验得到h=0,接受原假设,即服从正态分布。
并用normplot得到下图:
可以看出与直线拟合程度较高,所以验证了其服从正态分布。
我们做出正态分布图:
得到其正态分布函数为:
得出:
预测误差的绝对值小于10mm的概率为0.777。
误差的绝对值大于20mm的概率是0.0555。
五、模型的检验
针对模型一和二,我们可以给出用6SQ软件得到的相应结果进行检验。
得到每组站点间的回归方程
因变量
自变量
回归方程
观测点6
观测点8
观测点3
观测点2
观测点7
观测点8
这些方程与SPSS得到的方程几乎一致。
因此我们认为我们上面的回归模型是正确的。
六、模型的评价与改进
本题能较好的找到了使减少观测点同时并且使数据信息损失量最少的几个观测点,但是通过我们的拟合知道6,7,8三个观测点拟合度很高,而通过标准差我们计算出应该先除去观测点8,所以我们如果通过先减少观测点8,再减少6来计算得到的观测结果应该更准确。
=129.197
=123.473
构造的回归方程分别为:
因变量
自变量
回归方程
观测点8
观测点7
观测点7
观测点7
得到的P值(显著性指标)大于问题2,3中的P值,所以此改进应该是合理的。
七、参考文献
(1)姜启源,谢金星,叶俊,高等教育出版社,数学模型第三版。
附录
附录图1
附表1:
观测站降雨量数据
日期
监测站
1
2
3
4
5
6
7
8
9
10
1976
600
464
584
448
648
176
328
232
488
544
1977
488
384
520
416
432
432
536
448
512
448
1978
616
520
616
488
544
504
536
496
432
592
1979
688
440
520
352
880
376
456
432
552
440
1980
648
336
496
496
552
448
552
448
456
544
1981
648
184
312
512
880
384
344
312
664
440
1982
728
624
728
432
576
480
568
504
640
424
1983
592
440
528
624
728
624
568
472
464
440
1984
688
464
624
472
424
544
600
440
336
368
1985
520
384
376
456
640
432
504
416
592
432
1986
664
408
424
392
544
552
576
576
688
496
1987
616
512
552
280
720
272
360
256
576
528
1988
608
424
464
328
536
344
312
296
552
336
1989
752
504
584
488
472
648
680
584
704
480
1990
560
552
632
360
832
464
536
456
656
464
1991
624
384
496
488
472
552
576
544
480
672
1992
648
432
496
400
736
752
720
624
344
504
1993
912
496
592
392
440
256
304
248
536
416
1994
768
416
496
408
720
488
624
472
432
408
1995
456
320
472
432
616
320
312
272
648
560
1996
912
552
616
504
600
544
688
576
744
512
1997
728
440
480
272
848
576
680
616
720
440
1998
1000
352
448
496
776
568
544
496
664
432
1999
656
368
480
448
720
440
408
320
608
392
2000
624
480
600
304
496
352
456
368
504
560
2001
768
304
384
448
560
232
288
176
680
480
2002
824
552
672
472
472
424
408
360
512
576
2003
688
584
680
584
432
416
392
376
568
440
2004
744
416
480
472
504
432
328
320
576
368
2005
624
520
680
424
672
536
632
544
336
584
附表2聚类成员
案例号
聚类
距离
1
1
.000
2
2
277.445
3
2
277.445
4
4
314.859
5
5
.000
6
6
208.632
7
6
266.787
8
6
224.634
9
3
.000
10
4
314.859
11
.
.
12
.
.
13
.
.
14
.
.
15
.
.
16
.
.
17
.
.
18
.
.
19
.
.
20
.
.
21
.
.
22
.
.
23
.
.
24
.
.
25
.
.
26
.
.
27
.
.
28
.
.
29
.
.
30
附表3每个聚类中的案例数
聚类
1
1.000
2
2.000
3
1.000
4
2.000
5
1.000
6
3.000
有效
10.000
缺失
20.000
附表4相关性
VAR00001
VAR00002
VAR00003
VAR00004
VAR00005
VAR00006
VAR00007
VAR00008
VAR00009
VAR00010
VAR00001
Pearson相关性
1
.179
.129
.132
-.044
.126
.109
.110
.255
-.194
显著性
.343
.496
.488
.816
.506
.566
.562
.175
.304
VAR00002
Pearson相关性
.179
1
.906**
-.093
-.271
.132
.263
.260
-.115
.096
显著性
.343
.000
.625
.147
.488
.160
.165
.543
.615
VAR00003
Pearson相关性
.129
.906**
1
.040
-.346
.080
.219
.185
-.289
.215
显著性
.496
.000
.834
.061
.675
.244
.326
.122
.254
VAR00004
Pearson相关性
.132
-.093
.040
1
-.232
.260
.060
.067
-.092
.043
显著性
.488
.625
.834
.218
.165
.751
.724
.629
.820
VAR00005
Pearson相关性
-.044
-.271
-.346
-.232
1
.107
.125
.123
.201
-.128
显著性
.816
.147
.061
.218
.573
.512
.517
.288
.501
VAR00006
Pearson相关性
.126
.132
.080
.260
.107
1
.872**
.903**
-.145
.020
显著性
.506
.488
.675
.165
.573
.000
.000
.444
.916
VAR00007
Pearson相关性
.109
.263
.219
.060
.125
.872**
1
.952**
-.161
.148
显著性
.566
.160
.244
.751
.512
.000
.000
.397
.436
VAR00008
Pearson相关性
.110
.260
.185
.067
.123
.903**
.952**
1
-.070
.169
显著性
.562
.165
.326
.724
.517
.000
.000
.715
.372
VAR00009
Pearson相关性
.255
-.115
-.289
-.092
.201
-.145
-.161
-.070
1
-.194
显著性
.175
.543
.122
.629
.288
.444
.397
.715
.304
VAR00010
Pearson相关性
-.194
.096
.215
.043
-.128
.020
.148
.169
-.194
1
显著性
.304
.615
.254
.820
.501
.916
.436
.372
.304
**.在.01水平(双侧)上显著相关。
附表5所有观测点的降雨量及其均值(包括减少点的估计值)
日期
1
2
3
4
5
6
7
8
9
10
均值
1976
600
484.4401
584
448
648
272.0743
299.0186
232
488
544
459.9533
1977
488
429.5066
520
416
432
476.2083
519.7556
448
512
448
468.9471
1978
616
511.9069
616
488
544
521.5714
568.8082
496
432
592
538.6287
1979
688
429.5066
520
352
880
461.0873
503.4047
432
552
440
525.7999
1980
648
408.9066
496
496
552
476.2083
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三次 个人 论文 重点