fisher判别法课程设计Word格式.docx
- 文档编号:788772
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:15
- 大小:276.97KB
fisher判别法课程设计Word格式.docx
《fisher判别法课程设计Word格式.docx》由会员分享,可在线阅读,更多相关《fisher判别法课程设计Word格式.docx(15页珍藏版)》请在冰点文库上搜索。
1、分析题目2、查找数据及收集资料3、确定思路4、编写程序
5、调试程序6、设计报告
预期结果
数据将各省市城镇居民家庭分为高收入组和次高收入组,建立判别函数进而判定未分组省市的类别
计划与进步的安排
第一天:
分析题目,确定需要查询的数据
第二天:
去图书馆或者边度文档收集资料
第三天:
整理资料,选出对自己有用的资料
第四天:
确定大致思路。
列出编程提纲
第五天:
编写程序第六天:
调试程序
第七天:
设计报告,做最后的检查
摘要
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。
主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。
简称多元分析。
当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。
数理统计学中的一个重要的分支学科。
Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,
x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):
y(x)=∑Cjxj
然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属
的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定
其归属。
这个线性函数应该能够在把P维空间中的所有点转化为一维数值之
后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩
大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。
在
这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大
的原则来进行判别。
关键词多元统计分析,Fisher,投影
目录
摘要I
主体内容-1-
研究题目:
-1-
问题及背景-1-
①背景-1-
②问题-2-
③数据来源-2-
详细分析过程-2-
①数据录入-2-
②进行fisher判别分析-3-
③得到分析结果-5-
应用Fisher判别方程对未分组省份进行分组-7-
参考文献-9-
主体内容
城镇居民家庭可支配收入是指家庭成员得到的最终消费支出和其他非义务性支出以及储蓄的总和,即居民家庭可以用来自由支配的收入。
它是家庭总收入扣除缴纳的所得税、个人缴纳的社会保障支出以及记账补贴后的收入,它主要由以下几部分组成:
工薪收入、经营净收入、财产性收入和转移性收入。
本文利用Fisher判别法,将沿海11省市作为先验组得到Fisher判别函数
(其中
分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性收入、转移性收入)
(其中分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性收入、转移性收入)
然后将剩余未分组省市代入判别函数,与先验组的临界值比较进行分组。
分组结果显示高收入组(北京、上海、天津、广东、浙江)都在沿海省市,内陆省市则都属于次高收入组,这与我国东部沿海地区省市的城镇居民家庭收入较中西部高的国情吻合。
问题及背景
①背景
城镇居民家庭可支配收入是指家庭成员得到的最终消费支出和其他非义
务性支出以及储蓄的总和,即居民家庭可以用来自由支配的收入。
它是家庭总
收入扣除缴纳的所得税、个人缴纳的社会保障支出以及记账补贴后的收入,它
主要由以下几部分组成:
我国东部沿海地区省市的城镇居民家庭收入较中西部高,但是各省市之间也存
在差距。
②问题
根据我国东部沿海11个省市城镇居民家庭平均每人全年家庭收入的5个
指标(工薪收入、经营净收入、财产性收入和转移性收入)数据将各省市城镇
居民家庭分为高收入组和次高收入组,建立判别函数进而判定未分组省市的类
别。
③数据来源
《2010年中国统计年鉴》。
详细分析过程
本文主要利用spss软件进行数据分析。
①数据录入
通过国家统计局网站得到我国东部沿海11省市的城镇居民家庭平均每人
全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收
入)数据得到excel表格,并将11个省份划分为高收入组(代号为1)和次
高收入组(代号为2),分类如图2-1组别,将其导入spss得到如图2-1所
示:
图2-1
②进行fisher判别分析
在SPSS中进行如下操作:
步骤一在analyze菜单中的classify子菜单中选择discriminant命令如
2-2图所示。
步骤二在如图2-3所示的discriminantanalyze对话框中,从左侧变
量的变量列表中选择“工薪收入”、“经营净收入”、“财产性收入”和“转移
性收入”变量,使之添加到independents框中
步骤三选择“组别”变量使之添加到groupariable框中。
这时group
ariable框下的definerange按钮变为可用,单击,弹出discriminant
analyze:
difine对话框如图2-4所示,并在minium中输入1,在maximum
中输入2.
步骤四在discriminantanalyze对话框中单击statistics按钮
discriminantanalyze:
statistics对话框,如图2-5所示。
步骤五在discriminantanalyze对话框中单击classify按钮弹出
classification对话框,如图2-6所示
步骤六单击图2-3所示的discriminantanalysis对话框中的ok键,
完成操作。
③得到分析结果
得到分析结果如下:
如表2-1所示可知只有一个判别函数:
D1=2.94*城镇居民家庭总收入-1.892*工资性收入+0.943*经营性收入
-1.322*财产性收入-1.112*转移性收入
标准化的典型判别式函数系数
函数
1
城镇居民家庭总收入
2.940
工资性收入
-1.892
经营性收入
.943
财产性收入
-1.322
转移性收入
-.112
表2-1
由分析结果表2-2可知高收入组的Fisher线性判别函数为:
F1=0.025*城镇居民家庭总收入-0.018*工资性收入+0.014*经营性收入
-0.064*财产性收入-0.009*转移性收入-105.381次高收入组的Fisher判别
函数为:
F2=0.021*城镇居民家庭总收入-0.015*工资性收入+0.009*经营性收
入-0.05*财产性收入-0.009*转移性收入-55.554。
分类函数系数
组别
高收入
次高收入
.025
.021
-.018
-.015
.014
.009
-.064
-.050
-.009
(常量)
-105.381
-55.554
Fisher的线性判别式函数
表2-2
将初始数据代入判别函数可得到表2-3,可知判别函数对初始分组案例
100%的进行了正确分类。
分类结果a
预测组成员
合计
初始
计数
5
6
%
100.0
.0
a.已对初始分组案例中的100.0%个进行了正确分类。
表2-3
应用Fisher判别方程对未分组省份进行分组
由分析可知判别函数
(其中分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性
收入、转移性收入)又有高收入组各项指标的均值
=(24632.8,18453.4,1826.2,703.4,6592.4)次高收入组各项指
标的均值=(16178.16667,11553.66667,1480.333333,489.5,
4210.666667)代入判别函数可得=30968.06,=21770.85进而可得
=25951.4将剩余的省份代入判别函数如表3-1所示
地区
城镇居民家庭人均可支配收入
判别函数值
河北省
14718
9831
977
194
4674
20138.023
山西省
13997
9741
944
252
4045
18780.216
内蒙古自治区
15849
11267
1737
364
3583
22451.383
吉林省
14006
9482
1307
146
4220
19584.545
黑龙江省
12566
8357
1224
89
4020
17698.93
安徽省
14086
10362
1023
273
4033
17927.023
江西省
14022
9790
1153
240
3864
19175.231
河南省
14372
9910
1203
165
4130
19827.699
湖北省
14367
10332
1232
297
3838
19192.122
湖南省
15084
9854
1744
419
4060
22279.146
重庆市
15749
11824
1019
254
3894
20226.053
四川省
13839
10132
1132
305
3754
18006.734
贵州省
12863
9006
1135
134
3518
17759.009
云南省
14424
9642
1092
1044
3902
19474.46
西藏自治区
13544
13326
378
218
1056
13500.554
陕西省
14129
10775
544
152
3839
17196.04
甘肃省
11930
9182
690
59
2986
14954.096
青海省
12692
9341
835
46
3928
15999.965
宁夏回族自治区
14025
9597
2036
281
3636
20581.21
新疆维吾尔自治区
12258
10233
975
116
2279
14909.509
表3-1
根据表3-1判别函数值列与临界值25951.4比较可知:
剩余未分类的省份
都属于次高收入组。
只有北京、上海、天津、广东、浙江属于高收入组,判
别结果与我国东部沿海地区省市的城镇居民家庭收入较中西部高国情基本吻
合。
但是,由于先验组的收入水平普遍比较高,因此临界值偏高,由此导致了
内陆地区都划入次高收入组。
从得到的判别函数可以看出城镇居民家庭人均
可支配总收入是判别的最主要的因素,同时相对于其他的因素,财产性收入
比重最小。
因此要提高居民的家庭收入,首先要提高可支配收入,另外还要
提高财产性收入,使其与其它因素的比重达到相近水平。
参考文献
朱建平《应用多元统计分析》科学出版社,2006
于秀林,任雪松《多元统计分析》中国统计出版社,1999
课程设计评阅书
课程设计报告评语:
(评阅意见主要对设计任务的合理性、规范性和正确性以及设计报告书的完整性、规范性和通顺性等方面作出评价)
报告成绩:
答辩记录与评语:
答辩成绩:
课程设计总成绩:
教师签名:
年月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- fisher 判别 课程设计