应用多元统计分析实验报告Word格式文档下载.docx
- 文档编号:920779
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:53
- 大小:524.45KB
应用多元统计分析实验报告Word格式文档下载.docx
《应用多元统计分析实验报告Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析实验报告Word格式文档下载.docx(53页珍藏版)》请在冰点文库上搜索。
.937
平方与叉积的和
.000
62500.000
-.000
协方差
12500.000
-.510
-.077
.302
.885
65.333
-179.000
13.067
-86250.000
-35.800
.114
.829
83475.500
16695.100
三.实验结果分析:
样本均值为
样本的协方差
如此就可以按照极大似然估计方程:
,
得出均值向量与协方差向量的最大似然估计结果。
第三章聚类分析
3.1下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比较分析。
公司
编号
净资产收益率
每股净利润
总资产周转率
资产负债率
流动负债比率
每股净资产
净利润增长率
总资产增长率
11.09
0.21
0.05
96.98
70.53
1.86
-44.04
81.99
11.96
0.59
0.74
51.78
90.73
4.95
7.02
16.11
0.03
181.99
100
-2.98
103.33
21.18
11.58
0.13
0.17
46.07
92.18
1.14
6.55
-56.32
-6.19
-0.09
43.3
82.24
1.52
-1713.5
-3.36
10
0.47
0.48
68.4
86
4.7
-11.56
0.85
7
10.49
0.11
0.35
82.98
99.87
1.02
100.23
30.32
11.12
-1.69
0.12
132.14
-0.66
-4454.39
-62.75
9
3.41
0.04
0.2
67.86
98.51
1.25
-11.25
-11.43
1.16
0.01
0.54
43.7
1.03
-87.18
-7.41
11
30.22
0.16
0.4
87.36
94.88
0.53
729.41
-9.97
8.19
0.22
0.38
30.31
2.73
-12.31
-2.77
13
95.79
-5.2
0.5
252.34
99.34
-5.42
-9816.52
-46.82
14
16.55
0.93
72.31
84.05
2.14
115.95
123.41
-24.18
-1.16
0.79
56.26
97.8
4.81
-533.89
-27.74
一、实验原理:
1.系统聚类的基本思想是:
首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。
打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。
2.K-均值聚类法:
K-均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;
有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。
二.SPSS操作步骤:
(一)系统聚类基本操作步骤如下:
1.点击分析——分类——系统聚类,进入系统聚类对话框。
2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。
输出框中保持默认选项,选中统计量和图。
3.统计量部分保持默认选项,点击继续按钮;
点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;
点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,其他部分保持默认选项,点击继续按钮;
保存部分保持默认选项,点击继续按钮。
4.最后点击确定按钮,得系统聚类结果。
(二)K-均值法基本操作步骤如下:
1.点击分析——分类——K-均值聚类,进入K-均值聚类对话框。
根据系统聚类的结果,聚类数改为3,其他部分保持默认选项。
3.迭代部分保持默认选项,点击继续按钮;
点击保存按钮,选中聚类成员、与聚类中心的距离,点击继续按钮;
选项部分中保持默认选项,点击继续。
4.最后点击确定按钮,得K-均值聚类结果。
三.输出结果:
系统聚类法:
表1案例处理汇总a,b
案例
有效
缺失
总计
百分比
100.0
.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
表2聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
363.280
1189.697
1492.532
3976.328
7995.874
9315.360
13588.434
28034.879
.989
.326
.861
K均值法:
表3初始聚类中心
聚类
-5.20
.16
.50
.12
.40
流动负债率
100.00
-.66
.53
表4迭代历史记录a
迭代
聚类中心内的更改
834.134
a.由于聚类中心内没有改动或改动较小而达到收敛。
任何中心的最大绝对坐标更改为.000。
当前迭代为2。
初始中心间的最小距离为5184.300。
表5最终聚类中心
6.48
.08
.39
71.48
92.06
1.90
-103.94
11.91
表6每个聚类中的案例数
1.000
13.000
15.000
四,实验结果分析:
(一)系统聚类法:
表2聚类表是对每一阶段聚类结果的反应。
图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。
如果选择分为2类,分类结果为:
13号公司单独一类,1-12号公司为一类;
如果选择分为3类,分类结果为:
{13}、{1、14}、{2、3、4、5、6、7、8、9、10、11、12、15}。
由表中数据可以发现,13号公司资产负债率最高,净利润增长率最低,1号和14号公司的主要财务指标都比较好,可以认为系统聚类根据经营情况对公司进行分类的。
(二)K均值法:
表3出始聚类中心,表示最初种类的重心,也就是种子点。
表5最终聚类中心,表示K-均值聚类之后各类的重心,可以看到,1类资产负债率高,净利润增长率低,3类各项指标值都比较好。
由数据集输出结果知分类结果为:
1类{13}、2类{8}、3类{1、2、3、4、5、6、7、9、10、11、12、14、15}。
与系统聚类的结果不完全相同,K-均值聚类将8号公司单独作为一类。
由数据表可以发现8号公司资产负债率较高,净利润增长率较低,与其他公司之间有较大差别,单独分为一类也比较符合实际。
3.2下表是2003年我国省会城市和计划单列市的主要经济指标:
人均GDP(元)、人均工业产值(元)、客运总量(万人)、货运总量(万吨)、地方财政预算内收入(亿元)、固定资产投资总额(亿元)、在岗职工占总人口的比例(%)、在岗职工人均工资额(元)、城乡居民年底储蓄余额(亿元)。
试利用SPSS软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
城市
北京
31886
33168
30520
30671
593
2000
37.8
25312
6441
天津
26433
43732
3507
34679
205
934
18.8
18648
1825
石家庄
15134
13159
11843
10008
49
416
9.5
12306
1044
太原
15752
15831
2975
15248
33
197
22.8
12679
660
呼和浩特
18991
11257
3508
4155
21
182
13.5
14116
255
沈阳
23268
15446
6612
14636
81
557
14.8
14961
1423
大连
29145
27615
11001
21081
111
407
14.7
17560
1310
长春
18630
21045
6999
10892
46
294
12.5
13870
831
哈尔滨
14825
7561
6458
9518
76
423
17.7
12451
1154
上海
46586
77083
7212
63861
899
2274
21.0
27305
6055
南京
27547
43853
16790
14805
136
794
15.4
22190
1134
杭州
32667
49823
21349
16815
150
717
11.8
24667
1466
宁波
32543
47904
24938
13797
139
555
10.9
23691
1060
合肥
10621
11714
6034
4641
245
8.3
13901
359
福州
22281
21310
9680
8250
67
376
15053
876
厦门
53590
93126
4441
3055
70
238
38.6
19024
397
南昌
14221
9205
5728
4454
31
210
11.0
13913
483
济南
23437
22634
5810
14354
429
16027
758
青岛
24705
35506
14666
30553
120
548
14.5
15335
908
郑州
16674
14023
10709
7847
66
373
12.7
13538
1048
武汉
21278
17083
11882
16610
80
623
17.4
13730
1286
长沙
8873
10609
10631
60
434
10.0
16987
705
广州
48220
55404
29751
28859
275
1089
25.1
28805
3727
深圳
10989
6793
291
875
69.6
31053
2199
南宁
8176
3390
7016
5893
170
13171
451
海口
16442
14553
13284
3304
99
16.5
14819
284
重庆
7190
5076
58290
32450
162
1187
6.5
12440
1897
成都
17914
9289
72793
28798
90
788
11.9
15274
1494
贵阳
11046
10350
18511
5318
40
231
15.8
12181
345
昆明
16215
11601
5126
12338
342
14.6
14255
709
西安
13140
8913
11413
9392
65
446
15.9
13505
1211
兰州
14459
17136
2209
5581
203
18.0
13489
468
西宁
7066
5605
2788
2037
10.1
14629
175
银川
11787
11013
2146
2127
134
21.9
13497
193
乌鲁木齐
22508
17137
2188
12754
41
180
26.1
16509
420
资料来源:
《中国统计年鉴2004》
系统聚类的基本思想:
打开SPSS软件,在数据窗口依次定义变量,并输入以上数据
2.将x1、x2、x3、x4、x5、x6、x7、x8、x9,9个变量选入变量框中,将城市选入标注个案框中。
点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,聚类方法中有7种方法可供选择,分别进行选择,其他部分保持默认选项,点击继续按钮;
经过比较得类平均法的组间联接法的结果与人们观察到的实际情况较接近,输出结果见表1、表2,图1、图2。
表1案例处理摘要a
合计
37
100.0%
0.0%
28
32
17
.081
25
.118
30
.119
20
.142
.234
.269
.270
.280
.306
22
.311
19
18
.339
.409
34
.440
.496
29
.530
24
.610
.657
35
.739
.762
.792
23
.946
1.063
1.419
1.958
27
2.425
2.594
4.486
6.284
9.911
10.719
19.305
20.888
42.478
100.422
图1冰状图
图2树状图
四.实验结果分析:
如第一行表示,第一阶段时第二个样品(天津)与第37个样品(海口)聚为一类,其他以此类推。
深圳单独一类,其他城市为一类;
1类{深圳}、2类{北京、南宁、广州、上海}、3类其他城市为一类。
由表中数据可以发现,深圳各项经济指标都比较好,且人均GDP远高于其他各城市,所以单独聚为一类,北京、南宁、广州、上海各项经济指标在全国各省份地区的平均水平之上,故聚为一类。
可以从经济发展水平来理解所做的分类,1类是经济最发达的地区,2类是经济比较发达的地区,3类是经济发展水平一般的地区。
第四章判别分析
4.1银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。
下表是从某银行的客户资料中抽取的部分数据。
⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则;
⑵某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 实验 报告