多元统计分析.docx
- 文档编号:17362487
- 上传时间:2023-07-24
- 格式:DOCX
- 页数:17
- 大小:191.90KB
多元统计分析.docx
《多元统计分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析.docx(17页珍藏版)》请在冰点文库上搜索。
多元统计分析
中国地质大学
课程结题报告
课程名称多元统计分析
教师姓名向东进
学生姓名石博
学号20111000711
班级121112
所在院系数学与物理学院
日期2015.1.1
基于聚类分析和回归分析的运城盆地“典型高氟地下水
氟特征”的研究
摘要运城盆地是位于山西省西南部的一个重要工业生产基地。
由于地表水的严重匮乏,地下水资源在区域供水中的比重不断提高,但在盆地中广泛分布的高氟地下水严重威胁着区内广大人民的身体健康,对区域安全供水提出了巨大的挑战,因此,查明高氟地下水的水化学特征对对认识该区高氟水的形成机制和防治地方性氟病具有重要的科学和现实意义。
我们采用聚类分析和回归分析的方法,对高氟地下水水化学特征进行分析,能帮助我们了解地下水各组分的相关关系等,这样能够更好的理解高氟地下水的水化学特征和形成机制。
关键词:
高氟地下水水化学特征聚类分析回归分析
Thestudyofgroundwater’scharacteristicsoffluorinebasedontheregressionanalysisandclusteranalysis
AbstractYunchengbasinisanimportantindustrialproductionbaselocatedinthesouthwestofShanxiProvince.Duetotheseriouslackofsurfacewater,groundwaterresources’sproportionofwatersupplyintheregionhasimprovedcontinuouslynow,butwidelydistributedhighfluoridegroundwaterinthebasinisaseriousthreattothehealthofthebroadmassesofthepeopleinthearea.Obviously,Thewatersupplyisputtingforwardahugechallengetoregionalsecurity.Therefore,thereisimportantscientificandpracticalsignificancetofindoutthehydrochemicalcharacteristicsofhighfluoridegroundwaterforunderstandingtheformationmechanismofhighfluoridewaterandpreventionofendemicfluorosis.Weadoptthemethodofclusteranalysisandregressionanalysis,toanalysethehydrochemistrycharacteristicofhighfluoridegroundwater,whichcanhelpusbetterunderstandthecorrelationbetweenthecomponentsofgroundwater,etc.Atthesametime,wecanalsoknowaboutthecharacteristicsandformationmechanismandhydrochemicalcharacteristicsofhighfluoridegroundwater.
KeyWordshighfluoridegroundwaterhydrochemicalcharacteristicsclusteranalysisregressionanalysis
1引言
地方性氟中毒是世界性的环境地质问题,也是当今环境、地质科学领域研究热点之一,它引起了众多国家与国际组织的特别重视,我国内陆除上海市之外,其余各省、市、自治区均有病区。
其中,饮水型氟中毒病区主要分布在气候干旱、水资源匮乏的北方地区,如山西、内蒙古、新疆、黑龙江等,本研究所选的研究区山西运城盆地是我国严重饮水型地氟病病区之一。
目前,我国有关高氟地下水成因机理的研究程度相对国际研究水平还略显薄弱,取得的一些认识对于指导高氟含水层的污染治理还欠缺很多。
采用聚类分析和回归分析两种方法对该区水化学特征进行分析具有一定的指导性意义。
运城盆地位于山西省西南部,介于经度110°15′-110°46′E和纬度34°40′-35°38′N之间,包括临猗、永济、闻喜、运城、夏县五县(市)以及万荣、绛县的部分地区,总面积约6211平方公里。
研究区内交通发达,铁路公路纵横交错,南通西安,三门峡,北接太原。
境内有太原至风陵渡、运城至茅津渡、运城至三门峡、西安等高等级公路连通,如图1所示。
研究区山区和丘陵面积约1186平方千米。
山势基本延伸方向为北东——南西向,南部、东部为中条山,山势连绵高峻,主峰标高为1200m~1900m。
盆地北东、北、北西边缘有:
紫金山、稷王山、孤峰山等,山的主峰标高为1100m~1400m,山前有黄土台塬广阔,微向盆地中心倾斜。
盆地中间,总体地势平缓,自北东向南西微微倾斜,一般标高340m~450m。
研究区中条山和四十里长岗之间有北东——南西向的低凹地带,常年一片集水,这就是运城盐湖。
盆地的南、南西一带,分布有串珠状的湖泊和沼泽,地面高程约320m。
研究区内发育的较大河流有:
涑水河、青龙河,均属黄河水系,鸣条岗及其倾没地带为其分水岭。
岗北为涑水河,为本区最大河流,发源于绛县陈村峪,全长196千米,流域面积5935平方千米。
流经绛县、闻喜、夏县、运城、临猗、永济,于永济薛家崖村注入黄河。
图1运城盆地交通位置图
2研究方法
2.1聚类分析法
聚类分析是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。
它是一种建立分类的方法,能够将一批样本数据按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。
这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。
在分类的过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观的决定分类标准。
常用的聚类分析方法有:
K-均值聚类法和系统聚类法等。
本文采用系统聚类法进行聚类分析。
2.2回归分析法
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。
本文采用多元线性回归进行回归分析。
3典型高氟地下水氟特征研究中的应用
3.1研究区水化学数据
本次研究于2011年在山西运城盆地分别取了一百多个水样,其中,浅层地下水水样31个,中层地下水水样31个,深层地下水水样62个。
野外测量的指标有PH值,室内测量的指标有F-、K+、Na+、Mg2+、Ca2+、HCO3-、Cl-、SO42-,取各样品的数据如表1、表2、表3所示。
表1浅层地下水水化学数据
样品编号
井深(m)
pH
F(mg/l)
TDS(g/l)
YJ-06
30
7.20
0.61
0.83
YJ-11
30
7.10
1.98
3.13
YJ-12
40
7.58
0.32
0.59
YJ-15
30
7.36
10.50
17.45
YJ-18
70
8.04
4.34
1.30
YJ-28
50
7.80
2.32
1.60
YJ-29
40
7.68
3.06
1.10
LY-15
40
8.28
4.87
1.46
LY2组-02
30
8.37
9.42
2.52
LY2组-10
35
7.11
3.62
7.10
LY2组-11
50
8.56
10.92
0.66
LY2组-13
60
9.16
14.12
0.59
WX-05
45
7.91
1.28
0.47
WX-13
25
7.99
2.99
0.38
XX-02
15
7.68
1.45
0.54
XX-04
48
7.61
0.60
0.95
XX-12
70
7.94
1.03
0.36
XX-25
50
7.47
1.06
1.95
YH-02
70
8.52
12.65
4.77
YH-03
30
7.76
0.64
0.60
YH-12
65
8.15
5.47
0.77
YH-18
30
7.75
3.52
0.67
YH-19
20
7.86
1.06
0.34
YH-24
26
7.88
3.87
2.15
YH-25
12
7.60
4.59
4.07
YH-27
10
7.29
0.53
0.47
YH-29
25-26
8.01
5.24
4.33
YH-31
15
7.86
5.33
3.28
YH-38
30
8.42
5.40
1.02
YH-40
50
8.21
5.75
2.14
YH-41
9
7.70
3.72
1.98
表2中层地下水水化学数据
样品编号
井深(m)
pH
F(mg/l)
TDS(g/l)
YJ-07
80
7.40
0.36
0.39
YJ-10
76
7.80
0.44
1.00
YJ-20
120
8.25
1.60
1.13
YJ-24
100
8.28
2.12
0.89
YJ-25
120
8.04
2.03
1.12
YJ-27
120
8.10
1.20
0.65
LY-11
100
7.82
2.26
0.76
LY2组-03
110
8.30
3.15
0.80
WX-06
95
7.98
1.12
0.63
WX-10
85
7.97
0.97
0.27
WX-17
90
8.44
1.82
0.23
WX-18
98
8.46
0.73
1.17
XX-05
100
8.22
0.19
0.80
XX-14
80
7.86
0.67
0.49
YH-05
80
8.24
0.71
1.31
YH-06
110.5
7.48
0.58
0.52
YH-07
115
8.11
0.85
0.39
YH-16
100
7.56
0.40
0.52
YH-20
100
8.16
1.51
0.65
YH-22
80
7.53
1.10
0.66
YH-34
90
8.09
2.59
0.57
YH-35
120
7.90
2.28
0.96
3.2数据统计分析
3.2.1水化学分类——聚类分析
对研究区地下水的水化学特征的了解的第一步,就是需要将具有相似性质的水化学数据汇集成一类,看它们有什么相似的特征。
本文选择聚类分析中的最长距离作为分析方法,以判断地下水水化学类型的主要离子:
K+、Na+、Mg2+、Ca2+、HCO3-、Cl-、SO42-作为自变量,由于各离子的量纲存在一定的差 ,所以在选择方法的时候需要选择标准化,以样品编号作为因变量进行分析,最后得出的结果如下所示。
(1)此处显示的是聚类表。
群集组合即第二、三列表示的是某步合并的个案,系数一栏表示的是相似系数,首次出现阶群集栏表示的是新类在第几步合成。
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
20
.367
0
0
7
2
6
18
1.819
0
0
6
3
7
8
3.766
0
0
12
4
22
29
4.106
0
0
13
5
14
24
4.919
0
0
11
6
6
16
6.324
2
0
14
7
1
2
7.905
1
0
13
8
25
28
10.239
0
0
19
9
5
17
11.850
0
0
18
10
26
31
13.624
0
0
19
11
14
27
14.156
5
0
17
12
3
7
14.864
0
3
22
13
1
22
15.262
7
4
17
14
6
13
21.529
6
0
16
15
15
23
25.225
0
0
21
16
6
30
28.741
14
0
23
17
1
14
33.688
13
11
20
18
5
21
35.748
9
0
24
19
25
26
36.061
8
10
21
20
1
9
55.185
17
0
25
21
15
25
62.110
15
19
29
22
3
10
66.623
12
0
25
23
6
11
86.882
16
0
28
24
5
19
109.609
18
0
26
25
1
3
135.579
20
22
27
26
5
12
172.804
24
0
30
27
1
4
327.452
25
0
28
28
1
6
374.676
27
23
29
29
1
15
665.694
28
21
30
30
1
5
1513.574
29
26
0
(2)此处显示的是冰柱图,是反映样本聚类情况的图。
(3)此处显示的是树状图,此图清楚的显示了聚类的全过程。
第一次各自自成一类;第二次分类总共分为8类;第三次分为7类;第四次分为5类;第五次分为4类;第六次分为3类;第七次分为2类;最后一次合成一个大类。
3.2.2F-的影响因素分析——回归分析
运城盆地高氟地下水中F-的迁移机制以及含量与地下水中的其他离子、温度、pH值有着密切的联系,为此,以F-作为因变量,其他离子作为自变量进行回归分析。
高氟地下水中的氟离子含量一般限定为1mg/L以上,由于各含水层取样点中测试出来的氟离子浓度有一些小于1mg/L,因此先将这些样品去掉再进行分析。
(1)下表为描述性统计量表
描述性统计量
均值
标准偏差
N
浅井氟含量
4.2665
3.72142
31
浅井TDS
2.2442
3.23811
31
浅井PH值
7.8661
.45751
31
浅井井深
37.0968
17.90597
31
(2)下表为各离子相关系数表,由表可以看出个离子之间都存在一定的相关性。
相关性
浅井氟含量
浅井TDS
浅井PH值
浅井井深
Pearson相关性
浅井氟含量
1.000
.398
.689
.294
浅井TDS
.398
1.000
-.267
-.110
浅井PH值
.689
-.267
1.000
.445
浅井井深
.294
-.110
.445
1.000
Sig.(单侧)
浅井氟含量
.
.013
.000
.054
浅井TDS
.013
.
.073
.278
浅井PH值
.000
.073
.
.006
浅井井深
.054
.278
.006
.
N
浅井氟含量
31
31
31
31
浅井TDS
31
31
31
31
浅井PH值
31
31
31
31
浅井井深
31
31
31
31
(3)下表为输入/移去的变量表
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
浅井井深,浅井TDS,浅井PH值
.
输入
a.已输入所有请求的变量
b.因变量:
浅井氟含量
(4)下表显示的是模型汇总。
从表中可以得出:
复相关系数分别为R2=0.840,修正的复相关系数R2a=0.822,接近于1,这说明模型的拟合优度很好。
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.916a
.840
.822
1.57088
a.预测变量:
(常量),浅井井深,浅井TDS,浅井PH值。
(5)下表是方差分析表
可以看出模型选择了浅井井深,浅井TDS,浅井PH值作为预测变量。
依表知P值较小,回归方程通过了的显著性检验。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
348.843
3
116.281
47.122
.000a
残差
66.627
27
2.468
总计
415.470
30
a.预测变量:
(常量),浅井井深,浅井TDS,浅井PH值。
b.因变量:
浅井氟含量
(6)下表显示的是方程的系数
依表可得线性回归方程为:
F-=-52.606+0.721TDS+7.046PH-0.005H。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-52.606
5.489
-9.584
.000
浅井TDS
.721
.092
.627
7.842
.000
浅井PH值
7.046
.722
.866
9.758
.000
浅井井深
-.005
.018
-.022
-.258
.798
a.因变量:
浅井氟含量
(7)下表是回归标准化残差的标准P-P图,可以看出假设还是合理的
4结果分析
(1)用聚类分析对浅层地下水进行水化学分类,采用的自变量为主要离子:
K+、Na+、Mg2+、Ca2+、HCO3-、Cl-、SO42-,经过四次分类可将地下水划分为五类,实际水化学分出的地下水化学类型主要为五类,分别是:
HCO3—Na型水、HCO3—Ca型水、HCO3—Ca·Na型水、HCO3·Cl—Na型水、HCO3·SO4—Na型水。
经过聚类分析之后也可以得出类似的分类,但与实际情况存在一定的误差。
(2)矿化度,是指水溶液中溶解的各离子组分的总和,是反映地下水盐度等的一个重要指标,矿化度为K+、Na+、Mg2+、Ca2+、HCO3-、Cl-、SO42-等离子的总和,分析矿化度TDS一般需要所有的离子,但这样会造成计算量大,不容易区分出主要的影响TDS的因素。
采用因子分析的统计方法可以解决这个问题,通过因子分析,可以只用两个公共因子即可解释TDS的变化。
(3)F-离子的富集一般与地下水中的部分离子关系密切,在不确定与哪些离子关系密切的情况下选择逐步回归的方法,以F-离子作为因变量,其他离子作为变量,可以得出影响F-离子浓度的主要变量是Na+和pH值,这样的结论与实际情况是相符合的,地下水中的Na+一般是赋存在偏碱性的环境中的,碱性环境中的地下水中OH-离子较多,可以置换土壤矿物中的F-离子,从而使得地下水中的F-离子浓度升高,长久之下,则会形成高氟地下水。
至于pH值的解释是相似的,pH值越大,也就是碱性越强,从而更有利于F-离子的富集。
但是这一步与实际还是存在部分出入,实际情况中,HCO3-含量过多、Ca2-离子的减少也会有利于F-离子的富集,但可能由于各离子之间相关性较高,致使在进行回归分析中没有检测出其他离子的影响。
5致谢
对本课程的学习,使我对这门课的认识更加深刻,这门课不仅仅是一门纯理论的课程,在实际应用着的用途很广泛。
本课程目前主要是掌握一些统计分析的基本方法,真正的使用技术需要在以后的具体实践中不断的探索,改进,使这门技术真正为自己所用,才是我们学习这门课的最终目的。
特别值得一提的是,这篇报告里的数据都是咱们学校环境学院的研究生学长给我的,由于我和那边的一个研一学长经常讨论数学方面的问题,因此在写这篇报告是我们一起努力完全的。
通过这次训练,我更加深刻地体会到了多元统计分析在其他学科应用中的重要性,并且我也知道SPSS是一门非常简单易用的统计软件,但是由于我读的是统计方面的研究生,因此我现在正在自学SAS,希望能够在以后统计应用方面做点东西。
最后感谢老师这学期对我们这门课的详细讲解,祝老师身体健康、万事如意!
6参考文献
[1]秦兵,李俊霞.大同盆地高氟地下水水化学,2012.3特征及其成因.地质科技情报
[2]李佩泽.聚类分析和主成分分析在地区综合消费水平评价中的应用,2008
[3]何晓群.多元统计分析(第三版).中国人民大学出版社,2011
[4]王焰新.地下水污染与防治.高等教育出版社,2007
[5]翁焕新.环境地球化学.地质出版社,1998
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析