欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOC文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc

    • 资源ID:2736693       资源大小:323.50KB        全文页数:13页
    • 资源格式: DOC        下载积分:10金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc

    1、 基于主成分-聚类分析的各地区火灾事故研究摘要:消防安全是公共安全的重要组成部分,火灾事故不仅严重威胁着人们的生命财产安全,而且还会引起社会恐慌和不安。鉴于近年来我国火情比较严重,本文根据国家统计局统计年鉴-2010年中的火灾事故统计表,通过主成分、聚类法对30个省市火灾事故情况进行了分析。并探讨了这两种方法的可行性,得出了火灾事故严重性评价的主要因素,及根据火灾严重性对各省市进行分类情况,对相关管理部门有一定的参考价值。关键字:火灾;主成分;聚类分析一、 问题提出火灾事故是现代社会危害较大,发生较频繁的灾害,其不仅严重威胁着人民的生命财产安全,而且火灾造成的负面影响也严重危害着社会的安定。据

    2、国家统计局统计数据显示,2010年全国共发生火灾事故132497起,造成人员死亡1205人,重伤624人,直接经济损失达195945.2万元,造成了巨大的社会负面影响。另一方面,随着人们生活水平的提高,人们对安全的保障要求也越来越高,因此消防安全就愈发显得重要紧迫,那么如何更加合理的对消防安全进行管理,这就涉及到对以往火灾事故的分析总结,寻前车之鉴来更好的防范未来。 因此,根据主成分分析不同因素对火灾事故严重程度评价的的影响关系,找出主要影响因素,这对火灾严重程度的评判具有重要的意义。进而根据严重程度的主要因素,运用聚类分析把各地的火灾事故情况进行聚类,划分出各个严重性所包含的区域,对有关部门

    3、的统筹管理是很有必要的。二、 问题解决的理论方法 1. 主成分分析原理:主成分分析是一种把原来多个指标化为少数几个互不相关(或相互独立(在总体是多维正态总体时)的综合指标的一种统计方法,可以达到数据简化、揭示变量之间的关系和进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供一些重要信息1。在实际中有重要的应用地位。例如在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。能否从着众多的指标中构造出很少几个互不相关的所谓综合指标,而且这几个综合指标应尽可能充分的反映原来

    4、众多指标的信息。从而使辨识系统从高维空间转化成低维空间,降低问题的难度。对于总体X=(x1,xp),我们给出X的综合指标F1,Fk的确定原则为:1) Fi是X的线性函数,即要求Fi=LiX,Li是p*1维待定常数向量,i=1,k;2) 要求D(yi)尽可能大,即yi能充分反映X的变化情况,i=1,2,k;3) 要求F1,Fk互不相关,即Cov(Fi,Fj)=0,或者说F1,Fk之间尽可能不含重复信息。这样的F1,Fk均称为X的主成分。注意主成分的个数营销与原始变量的个数,至于应该保留几个主成分应该权衡主成分个数和保留的信息。主成分的具体求解为:第一主成分,设X的协方差阵为由于x为非负定的对称阵

    5、,则有利用线性代数的知识可得,必存在正交阵U,使得 其中l1, l2, lp为x的特征根,不妨假设l1 l2 lp 。而U恰好是由特征根相对应的特征向量所组成的正交阵。 i=1,2,p则 为系统的第一主成分,若第一主成分信息量不够则找第二主成分,确定原则相似,即是找第二大特征值对应的特征向量,与X相乘即可。所以,求主成分即是求X的协方差阵的特征向量Ui,UiX即是第i个主成分。主成分分析本身往往并不是最终目的,而是达到目的的一种手段。它大多用于大型研究项目的某个中间环节。例如用在回归分析、聚类分析等研究项目中。2聚类分析原理:聚类分析的研究目的就是把相似的对象归并成类,研究的主要内容是如何度量

    6、相似性以及怎样构造聚类的具体方法以达到分类的目的,所用的工具乃是数学2。它是在没有知道类型的个数或对于各种类型的结构未做任何假设情况下的一种比较原始的方法。聚类的依据是相似性或距离。所以,需要引进一些能够刻画相似性的度量指标或数据。聚类分析的基本思想是我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是

    7、分类的基本思想。 在聚类分析中,通常我们将根据分类对象的不同分为变量聚类分析和样本聚类分析两大类。变量聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度;样本聚类分析的优点是:可以综合利用多个变量的信息对样本进行分类,分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果,聚类分析所得到的结果比传统分类方法更细致、全面、合理。聚类分析方法主要有系统聚类法和动态聚类法。系统聚类法的基本思想是:先将每个研究对象(样品或指标)各自看成一类,按某种顺序分别称作第1,第2,第h类,然后根据对象间的相似度量,将h中的相似的两类合并为一类,这样得到h-1

    8、类,再在这h-1类中选出最相似的两类合并,得到h-2类,如此下去知道将所有的对象合并成一个大类为止。动态聚类的基本思想是:先给出一个粗糙的初始分类,然后用某种原则进行修改,直到分类比较合理为止。三、 方法应用 数据资料来源:国家统计局:中国年统计年鉴2010中的“公共管理及其他”部分4,“全国各地区火灾事故情况”中的30个省、直辖市的30组数据,将数据列成表格形式为:全国各地区火灾事安全评价指标 (2010年)序号地 区发生数死亡人数受伤人数直接经济损失人口火灾发生率X1 (起)X2 (人)X3 (人)X4 (万元)X5 (1/10万人)1 北 京546832134361.043.34 2 天

    9、 津1148233624.711.60 3 河 北475729145692.66.52 4 山 西443926146331.712.78 5 内蒙古878951145306.735.83 6 辽 宁556642143756.513.09 7 吉 林786243257129.128.86 8 黑龙江294426135444.27.66 9 上 海570243547149.240.37 10 江 苏529685528975.57.09 11 浙 江383488426835.58.08 12 安 徽517335218474.37.58 13 福 建401655189374.811.38 14 江 西

    10、471521118074.410.05 15 山 东7226321513315.07.58 16 河 南353416133781.93.27 17 湖 北93832593821.315.26 18 湖 南29153348388.04.12 19 广 东61581326417825.17.23 20 广 西128732146094.22.41 21 海 南1052311201.311.74 22 重 庆5040432413689.315.26 23 四 川6204372111197.86.89 24 贵 州166173414566.23.97 25 云 南206964207363.94.57 2

    11、6 陕 西462023118354.211.93 27 甘 肃114116132887.94.21 28 青 海16231213926.029.51 29 宁 夏3447511338.253.64 30 新 疆520960413040.924.07 数据来源:各个指标值根据中国年统计年鉴2010的“公共管理及其他”,由于西藏信息不全故不做统计计算。1、主成分分析过程:下面对各个指标的数据进行应用统计分析,为了对各地区的火灾发生数x1、死亡人数x2、受伤人数x3、直接经济损失(万元)x4、人口火灾发生率x5,进行主成分分析,也就是对这五个指标进行降维处理。找出火灾严重程度的评价的主要因素,具体程

    12、序分析如下:主成分分析程序:data w;input x1-x5;cards;546832134361.043.34 1148233624.711.60 475729145692.66.52 443926146331.712.78 878951145306.735.83 556642143756.513.09 786243257129.128.86 294426135444.27.66 570243547149.240.37 529685528975.57.09 383488426835.58.08 517335218474.37.58 401655189374.811.38 47152111

    13、8074.410.05 7226321513315.07.58 353416133781.93.27 93832593821.315.26 29153348388.04.12 61581326417825.17.23 128732146094.22.41 1052311201.311.74 5040432413689.315.26 6204372111197.86.89 166173414566.23.97 206964207363.94.57 462023118354.211.93 114116132887.94.21 16231213926.029.51 3447511338.253.64

    14、 520960413040.924.07 ;proc princomp data = w;var x1-x5;run;运行结果如下: The SAS System 21:45 Sunday, April 11, 2012 1The PRINCOMP ProcedureObservations 30Variables 5Simple Statistics x1 x2 x3 x4 x5Mean 4409.266667 40.16666667 20.43333333 6510.713333 14.99633333StD 2247.904356 27.36481926 16.10672024 3969

    15、.766561 13.35252772Correlation Matrixx1 x2 x3 x4 x5x1 1.0000 0.2362 0.2299 0.4100 0.2963x2 0.2362 1.0000 0.8488 0.5793 -.2025x3 0.2299 0.8488 1.0000 0.4837 -.0421x4 0.4100 0.5793 0.4837 1.0000 -.3140x5 0.2963 -.2025 -.0421 -.3140 1.0000Eigenvalues of the Correlation Matrix Eigenvalue Difference Prop

    16、ortion Cumulative1 2.48596049 1.19314089 0.4972 0.49722 1.29281960 0.49308642 0.2586 0.75583 0.79973318 0.51044631 0.1599 0.91574 0.28928687 0.15708701 0.0579 0.97365 0.13219986 0.0264 1.0000The SAS System 21:45 Sunday, April 11, 2012 2The PRINCOMP ProcedureEigenvectors Prin1 Prin2 Prin3 Prin4 Prin5

    17、x1 0.289041 0.631186 -.500386 -.514779 -.051716x2 0.577733 -.085620 0.322199 -.166734 0.726142x3 0.545974 0.024475 0.496424 -.078685 -.669840x4 0.513375 -.068206 -.499395 0.693635 -.035635x5 -.145047 0.767478 0.387258 0.468915 0.141735结果分析:上述程序分析结果表明样本为30组5维的观测数据,其中X1、X2、X3、X4、X5的均值分别为4409.266667,40

    18、.16666667,20.43333333,6510.713333,14.99633333,方差分别为2247.904356,27.36481926 ,16.10672024 ,3969.766561 ,13.35252772。样本的相关矩阵对应上述结果中的Correlation Matrix所示,相关矩阵的特征表如Eigenvalues of the Correlation Matrix(分别列出了矩阵的特征值,方差,贡献率,累计贡献率)所示,特征值越大,它所对应的主成分变量包含的信息就越多,并且由该图可知X1-X5贡献率分别为,49.72%,25.86%,15.99%,5.79%,2.64

    19、%;由第四列的累计贡献率可知前3个成分就包含了原来5个指标的91.57%的信息,也就是前三个主成分已经完全符合统计的要求。因此在分析中取三个主成分进行分析。结果中的Eigenvectors部分列出了主成分的表达式,由最大特征值的特征向量知,第一主成分是:Y1=0.289041x1*+ 0.57773x2*+0.545974x3*+ 0.513375x4*-0.145047x5*由第二大特征值的特征向量知,第二主成分是:Y2=0.631186x1*-0.085620x2*+0.024475x3*- 0.068206 x4*-0.145047x5*由第三大特征值的特征向量知,第三主成分是:Y3=0

    20、.500386x1*+0.322199x2*+0.496424x3*- 0.499395x4* -0.387258x5*其中 x1*、x2* 、x3* 、x4*、 x5*分别为变量标准化后的数据。由于x1-x5的量纲不同,为了准确需对其进行标准化,标准化后的数据如下图所示:变量X1-X5标准化后的数据表: 序号地区x1*x2*x3*x4*x5*1北 京0.470987-0.29844-0.46151-0.541522.1227192天 津-1.4508-0.62733-1.08236-1.48271-0.254363河 北0.154692-0.40807-0.39942-0.20609-0.6

    21、34814山 西0.013227-0.5177-0.39942-0.04509-0.165995内蒙古1.9483630.395885-0.39942-0.30331.5602796辽 宁0.5145830.066996-0.39942-0.6938-0.142777吉 林1.5359790.1035390.2835260.1557741.038288黑龙江-0.65184-0.5177-0.46151-0.26866-0.549439上 海0.5750840.1035392.0840160.1608371.90028910江 苏0.3944711.6383571.9598440.62089-

    22、0.5921211浙 江-0.255911.7479861.3389860.081815-0.5179812安 徽0.339753-0.188810.0351820.494635-0.5554313福 建-0.174950.542059-0.151080.721475-0.2708414江 西0.136008-0.70041-0.585680.393899-0.3704415山 东1.253049-0.29844-0.337331.714027-0.5554316河 南-0.38937-0.88313-0.46151-0.6874-0.8782117湖 北2.212609-0.55424-0.

    23、70985-0.677470.01974718湖 南-0.66474-0.26189-1.020280.472896-0.8145519广 东0.7779393.355892.7048752.850139-0.5816420广 西-1.38897-0.29844-0.39942-0.10492-0.9426221海 南-1.49351-1.35819-1.20654-1.33746-0.2438722重 庆0.2805870.1035390.221441.8083150.01974723四 川0.798403-0.115720.0351821.180696-0.607124贵 州-1.2225

    24、91.1998371.2769-0.48983-0.8257925云 南-1.041090.870948-0.02690.214921-0.7808526陕 西0.093747-0.62733-0.585680.464382-0.2296427甘 肃-1.45392-0.88313-0.46151-0.9126-0.8078128青 海-1.2395-1.0293-0.46151-1.406811.0869629宁 夏-0.42807-1.28511-1.20654-1.302982.89410930新 疆0.3557680.7247751.2769-0.874060.679547计算综合评价

    25、值:Z=0.4972Y1+0.2586Y2+0.1599*Y3根据上述得到的主成分分析结果算出各个样本的主成分Y1、Y2、Y3及综合评价指标Z如下表所示: 表: 各省市个主成分值及Z值(从大到小排序)编号城市Y1Y2Y2 Z值 省市 1 北 京-0.258360.040578-0.641192.795193 广东2 天 津-2.17079-0.75048-0.626441.485499 江苏3 河 北-0.606990.2289360.09640.973118 上海 山 西-0.560560.07005-0.271660.959728 浙江5 内蒙古0.6444080.9804810.451440.724607 吉林6 辽 宁-0.407520.3773150.4825620.666759 新疆7 吉 林0.8891460.8063380.4628160.646137 内蒙古8 黑龙江-0.95708-0.28038-0.375130.555461 山东


    注意事项

    本文(基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开