聚类分析及判别分析实验报告范例Word下载.docx

资源ID：3170832 资源大小：54.19KB 全文页数：16页
资源格式： DOCX 下载积分：1金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要1金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

聚类分析及判别分析实验报告范例Word下载.docx

1、距离判别的基本原理是：首先对样本到总体G之间的距离进行合理规定，然后依照“就近”原则判定样本的归属，常用马氏距离（Mahalanobis）规定为：式中为p元总体G的协差阵，x是取自G的样品，则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响，也考虑到误判损失产生的影响，是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似，当总体是高维向量时，先把其综合成一个一维变量，然后在对一维变量进行距离判别，费舍尔判别实际上是一种降维处理，降维压缩后，样品y到各个总体的距离可以用欧式距离度量，即：由此导出Fisher判别规则为：，则本文及使用Fisher判别

2、建立线性判别函数进行距离判别。3，模型建立3.1 设置变量本文综合考虑了评价城市发展指数衡量因素，选取衡量一个城市经济发展水平的主要因素，城市化进程总是伴随着工业化发展，发达的服务业水平是衡量现代新兴城市的主要指标，此外，综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标：X1：城市第二产业产值（亿元）X2：城市第三产业产值（亿元）X3：城市固定资产投资总额（亿元）X4：城市社会消费品零售总额（亿元）X5：货物进出口总额（亿元）从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类：G1：发达城市G2：中度发达城市G3：欠发达城市3.2 数据收集

3、和整理本文所有数据来源于中国统计年鉴（2012），选取2011年度36个城市主要经济发展水平做模型建立及分析。其中前32个城市相关经济指标水平作为初始样本用于划分类别，建立类别总体G；最后四个城市（、）及其相关经济发展水平用作待判样品，利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1所示。表 1 我国部分城市相关经济发展水平（2011年）序号城市第二产业（亿元）第三产业（亿元）固定资产投资总额（亿元）社会消费品零售总额（亿元）1 北京 3752.512363.25851.52016900.324623374.98842 天津 5928.35219.27483.697333

4、95.066203.46423 家庄 2031.91635.83026.97781662.9864850.11124 太原 949.21097.11024.1444973.2937513.63065 呼和浩特 790.01277.81031.6781890.0478121.47366 阳 3026.92609.84577.0942426.8655637.2157 大连 3204.22550.74580.05851924.7943630.58748 长春 2092.71620.22356.61891515.85371040.93229 哈尔滨 1647.22147.83011.971

5、2070.4129307.054810 上海 7927.911142.95064.26246814.826246.15111 南京 2760.83220.43757.25172697.09973440.635812 宁波 3349.52454.52385.50722018.86175891.209213 合肥 2002.21426.23376.96521111.11881207.71914 福州 1711.21700.12720.28271947.81022083.485615 厦门 1297.11217.51128.0872800.27794210.000216 南昌 1579

6、.3974.72022.3297928.3438473.022617 济南 1829.02339.51934.33892114.2868624.12318 青岛 3150.73158.53502.53822302.37034329.130219 州 2874.21974.03002.51987.1147959.735420 武汉 3254.03309.54255.16213031.78851367.374821 长沙 3151.72224.33510.24252201.6112449.360422 广州 4577.07641.93412.252436970.2623 深圳 5343

7、.36155.72136.38823520.873624845.98224 海口 177.9487.7395.0408387.1804236.175625 重庆 5543.03623.87579.44543487.8071753.071626 成都 3143.83383.44944.01572861.28352274.379827 贵阳 586.8733.71600.5898584.3292392.979628 拉萨75.2137.2220.5031102.594878.445229 西安 1697.21993.93352.121965.9774754.7430 兰州 656.5

8、663.5950.5758639.7231112.765831 西宁 411.3332.0528.0052271.287348.937832 乌木齐 759.1908.9427.6221695.0278541.790433 杭州 3323.83458.53100.02182548.35993838.30834 南宁 829.61076.31950.86281073.1541150.625235 昆明 1161.21214.62275.52861271.7298721.322436 银川 525.2414.4720.5627274.470572.64，数据结果及分析4.1 聚类分析4.

9、1.1 聚类分析过程采用统计软件SPSS可以快速便的将样本分类，“K-均值聚类”将样本分为设定好的三类，分类结果如下：（1）K-均值聚类初始聚类中心初始聚类中心聚类79285928751114352191375064.17483.1220.06814.80003395.060026246.06203.078.0（2）样本聚类聚类成员案例号距离北京3937.772 济南1347.154 天津4379.850 青岛1710.043 家庄1259.026 州1969.261 太原1214. 武汉2771.834 呼和浩特1414.697 长沙2607.583 阳3452.674

10、广州5518.235 大连1842.873 深圳4887.376 长春837.811 海口2474.750 哈尔滨1584.291 重庆4072.601 上海3214.673 成都1942.910 南京1681.205 贵阳1402.620 宁波3455.9792918.190 合肥1536.881 西安1652.625 福州1682.563 兰州1767.334 厦门3577.169 西宁2433.503 南昌617.367 乌木齐1898.368（3）最终聚类中心最终聚类中心5675387914679887384013754350.84655.020

11、09.05745.33272995.78501263.807224822.03984.0782.0最终聚类中心间的距离21946.79726337.2725669.843（4）聚类差分析差分析误差FSig.均df34313207.7351231856.47927.855.000100446019.0131811059.40755.46324862358.6732205819.37611.27130454986.050887338.53134.322753836973.3831848036.992407.912F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测

12、到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2 聚类结果分析从上述聚类分析过程可知，样本完全有效，32个个体被分成三大类：G1（发达城市）：北京，上海，。G2（中度发达城市）：天津，程度。G3（欠发达城市）：，呼和浩特，乌木齐。从城市分类结果可知，北上深作为国际化城市发展代表，其经济发展水平远超其他沿海城市及陆城市；沿海开放城市以及陆主要枢纽城市的发展水平高于其他城市；中部地区级西部城市发展水平受限于地理、资源和资本等因素，经济发展表现不强劲。从最后的差分析中可知，分类检验水平显著，分类结果值得借鉴。4.2 判别分析4.2.1 判别结果及分析一般来

13、讲，利用判别分析首先要明确变量测量尺度及变量的类型和关系；因变量（dependent variable）：分组变量定性数据（个体、产品/品牌、特征，定类变量）。自变量（independent variable）：判别变量定量数据（属性的评价得分，数量型变量）。（1）判别图图 1 典则判别函数从图中很明显，看到三个组中心也就是经济发展水平，以及围绕着组中心的样本，说明直观上分组判别式完全可以接受的。（2）典型判别式函数摘要特征值函数差的 %累积 %正则相关性37.790a98.0.987.765a2.0100.0.658a. 分析中使用了前 2 个典型判别式函数。Wilks 的 Lambda

14、函数检验卡1 到 2.015114.106.56715.336.004标准化的典型判别式函数系数-.974.940-1.198.773.752.2111.190-.6751.409-.314结构矩阵.863*.090.184.920*.076.857*.231.675*.308.567*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数相关性的绝对大小排序的变量。*. 每个变量和任意判别式函数间最大的绝对相关性从表中我们看到，因为分组变量是三类，所以我们得到两个判别函数，其中第一判别函数解释了数据的98%，第二判别函数解释了2%；两个判别函数解释了100%；当然，两个判别函数直接具有显

15、著的差异和判别力。（3）分类统计量组的先验概率类别先验用于分析的案例未加权的已加权的.3333.0009.00020.000合计1.00032.000分类函数系数-.019-.001-.-.004-.003.011.002.001.030.006.003（常量）-231.519-12.269-2.727Fisher 的线性判别式函数Fisher线性判别函数，我们主要用来构建判别程，理论上说：如果我们知道某个城市在5经济指标的发展水平值，我们就可以估计出该城市应该是哪种类型的。4.2.2 判别检验判别变量是数量型测量尺度变量，分析样本个数至少比判别变量多两个，我们为了得到判别函数，经常需要把样本

16、随机分成训练样本和检验样本等工作，如本文最后四个（序号33-36）个体就可作为检验样本，也成待判样本。由上表可知Fisher判别程：判别规则：判别结果：杭州1583.391 南宁842.774 昆明401.567 银川2095.787直观上，作为沿海省会城市，虽然达不到北上深的经济发展地位，但其良好的地理位置以及投资开发环境，使得其经济发展水平非常迅速，归类到第二类经济发展城市是可以理解与接收的。其余三个城市虽然都是省会城市，但都属于西部城市，地理位置以及资源物产相对欠缺，得力于西部大开发政策影响，经济发展面距第三类城市相近。5，结论从本文所建立的模型对我国部分主要城市经济发展水平进

17、行了聚类分析与判别分析，并运用模型判断最后四个城市，验证模型的有效性。从相关结果及分析可以得到一些直观的结论。北京作为我国首都，毋庸置疑具有天然的发展优势，其政治中心，交通中心，文化中心的地位吸引了国外大量的投资建设，一批高科技产业带动的行业发展极大的推动了北京的经济发展；上海作为中国的经济金融中心，加之其边江浙地带发达的工业基础，都为上海的经济发展增加了强劲的力量；的发展是中国改革开放以来经济发展的典，开放的力量使得这个沿海城市一举成为中国发达城市的先驱。判别图里清晰的表明北上广的发展远远超过二三类型的城市发展水平。沿海主要城市以及陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资，

18、或者传统的工业基础，这些因素都使得这一类的城市发展迅速，势头强劲。其余中西部城市的发展各有其优劣，但总体上西部城市受西部大开发政策影响，变现出新兴的发展势头。判别图分析可见二三类型经济发展水平相差不大。由此，所建立模型直观上符合我国部分主要城市经济发展水平类型，最后的四个城市判别再次说明了模型的有效性。参考文献1海燕,梦,卫国,伟. 应用数理统计M. 北京:北京航空航天大学数学系, 2011.2建同,昌言. 以Excel和SPSS为工具的管理统计M. 北京:清华大学出版社，2002.3 统计局.2012年中国统计年鉴M. 中国统计出版社，20124 中国城市经济学会. 中国城市经济J.北京：中国社会科学院

注意事项

本文（聚类分析及判别分析实验报告范例Word下载.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。