欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    主成分分析和聚类分析的比较.docx

    • 资源ID:17448487       资源大小:588.25KB        全文页数:17页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    主成分分析和聚类分析的比较.docx

    1、主成分分析和聚类分析的比较主成分分析和聚类分析的比较摘要:主成分分析和聚类分析方多元统计中两种重要的分析方法,但却容易在 使用中混淆。本文从基本思想,应用的优缺点、应用实例中讨论两者的异同,并 简述两种方法在实际问题中的应用。关键词:主成分分析;聚类分析一、引言主成分分析是利用降维的思想, 在缺失很少信息的前提下, 把多个指标转化为 几个综合指标的多元统计方法。 通常把转化生成的综合指标称为主成分, 其中每 个主成分都是原始变量的线性组合, 且各个主成分之间互不相关, 使得主成分比 原始变量具有某些更优越的性能。 聚类分析是依据实验数据本身所具有的定性或 定量的特征来对大量的数据进行分组归类以

    2、了解数据集的内在结构, 并且对每一 个数据集进行描述的过程。其主要依据是聚到同一个数据集的样本应该性质相 似,而属于不同组的样本应该足够不相似。两种方法既有区别又有联系, 本文将两者的异同进行比较, 并举例说明两者在 实际应用中的联系,以便更好地理解这两种统计方法而为实际所应用。二、基本思想的异同相同点:主成分分析方法是用少数的几个变量来综合反映原始变量的主要信息, 变量虽然较原始变量少,但所包含的信息量却占原始信息的 85%以上,因此其可 信度很高。通过主成分分析, 可以将事物之间错综复杂的关系中找出一些主要成 分,从而能有效利用大量统计数据进行定量分析, 解释变量之间的内在关系。 因 此主

    3、成分变量比原始变量少了很多,从而起到了降维的作用。聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关 系,考虑对象多因素的联系和主导作用。 按它们亲疏差异程度, 归类不同的分类 中的一元。 使分类更具有客观实际并能反映事物的内在必然联系。 聚类分析是通 过一种大的对称矩阵来探索相关关系的一种数学分析方法。 对变量分类后, 我们 对数据的处理难度也降低, 所以从某种意义上说, 聚类分析也起到了降维的作用。 不同点:主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来 变量绝大多数信息的一种多元统计方法。 主成分分析就是设法将原来众多具有相 关性的指标, 从新组合成一组相互

    4、无关的指标来代替原来的指标。 我们将选取的 一组线性组合标为Fi,若Fi方差越大,贝M弋表所包含的信息越多。贝U称其为第 一主成分,再选一组线性组合其方差次大,记为 F2,称其为第二主成分,且规 定Fi与F2线性无关。是指第一主成分与第二主成分所包含信息不重合。且所包 含的信息大小逐渐递减。我们在实际研究中只需要选取前几个成分即可。在聚类分析过程中, 如果选取的聚类量纲不同会导致错误的结果。 因此在聚类 过程之前必须对变量进行标准化。 不同的方法进行标准化, 会导致不同的聚类结 果。三、应用的优缺点i 、主成分分析优点:它用降维技术将少数几个综合变量来弋替原始多个变量。 这些综合变量集 中了原

    5、始变量大多数信息。 当评级指标较多时还可以在保留绝大部分信息的情况 下用少数几个综合指标弋替原指标进行分析, 主成分分析中各主成分是按照方差 的大小来排列顺序的, 在分析问题时, 只取前后方差大的几个主成分来弋表原变 量,从而减少了计算工作量,由于选择的原则是累计贡献率 85%所以不会因为减少作量却把关键指标遗漏而影响评估结果。 在综合评价函数中, 各主成分的 权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比 重,这样确定权数是客观的、 合理的,它克服了某些评价方法中认为确定权数的 缺陷。这种方法的计算比较规范, 便于在计算机上实现, 还可以利用专门的软件。 缺点:在主成分

    6、分析中, 我们首先应保证所提取的前几个主成分的累计贡献率达 到一个较高的水平 (即变量降维后的信息量须保持在一个较高水平上) ,其次对 这些被提取的主成分必须都能够给出符合实际背景和意义的解释 (否贝主成分将 空有信息量而无实际含义) 。主成分的解释其含义一般多少带有点模糊性。 因此, 提取的主成分个数m通常应明显小于原始变量个数p (除非p本身较小),否则 维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。当主成分 的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。2、聚类分析优点:聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小 类合并。每类的

    7、变量相似但类与类之间的差异性很大,这样能清晰描述数据。聚 类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学 和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用 作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚类分析方便快捷,是管理统计很好的方法。缺点:聚类分析是以完备的数据文件为基础的, 一般要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性 的作用有被夸大或缩小的可能。要检查各变量的量纲是否一致,不一致则需进行 转换。四、实例分析比较1.聚类分析运用中国统计年鉴数据,对主要城市废水中

    8、主要污染物排放来源情况进行研究(2013 年)在spass软件进行操作,其操作框及结果如下图所示。(以系统聚类法为例)。143 13499 _ 43D0 5W耳 BESE22j 广州 Z1S1 2354 138$ 13&17B WWTT 1F44Z23书 宁 STB 23954 136 26636 S2244 T5MNumber ofclusters二::e启比: . . :BE 说H:-眈猶M-;诣痰珈:K 八:即W-:IXm ul :.:.*-:oi 用x:比 -im; 85EL;:-7:3L 说:W:和RM: r:9t孕住$畑 :比-:匕4Dendrogram using Average

    9、 Link赳(Within Groups)Rescaled Distance Clustei Combine图1是冰柱图,是反映样品聚类情况的图。如果按照设定的类数,在该类的行上 从左到右就可以找到各类所包含的样品。 例如我们希望分为5类,最左边的类数应选 2,每个样品右边都有一列冰柱,如果每个样品右边的列冰柱长度小于 5,那么它和前面冰柱长度大于 5 的样品聚为一类,如此下去直到找到全部 5 类为止。 例如:重庆、上海、石家庄均小于 5 ,因此它们各分为一类,从杭州到广州分为 一类,北京和成都聚为另一类,共五类。图 2 是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分 类数为

    10、5,就从距离大概为 14 的地方往下切,得到分类结果如下 1:上海 ;2: 重庆; 3:石家庄 ;4:天津,太原,呼和浩特,沈阳,长春,哈尔滨,南京, 杭州,合肥,福州,南昌,济南,郑州,武汉,长沙,广州,南宁,海口,贵阳, 昆明,拉萨,西安,兰州,西宁,银川,乌鲁木齐 。5:北京,成都 我们可以 从各地区来主要污水来源理解所做的分类, 第一类应该是主要污水来源为工业废 水,城镇生活污水,生活化学和生活氨氮。第二类主要污水来源为工业化学,城 镇生活污水, 生活化学。第三类主要污染来源为工业废水和工业化学。 第四类主 要污染来源为工业化学和生活化学。 第五类污染来源主要为城镇生活污水和生活 化学

    11、。系统聚类法在实际运用中的优缺点 :系统聚类方法的优点是: 操作简单, 能细致的看出小类聚大类的过程, 由由合 并时的距离水平可以看出样品间的亲疏程度。但是它的缺点是: 一旦一组对象合并时, 下一步将在新生成的类上进行。 已做 的处理不能被撤销, 类之间不能交换对象。 如果在某一步没有很好的选择合并的 话,将会造成低质量的聚类结果。 因为合并或分裂的决定需要检查和估算大量的 对象或类。 需计算大量的距离, 需要花费大量的时间, 所以算法不具有很好的可 伸缩性。2.主成分分析 运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究 (2013 年)在 spass 软件进行操作,其操

    12、作框及结果如下图所示。IltS.4:公因子方差初始提取工业废水1.000.818工业化学1.000.897工业氨氮1.000.887城镇生活污水1.000.865生活化学1.000.893生活氨氮1.000.930提取方法:主成份分析解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%14.01966.99166.9914.01966.99166.99121.27021.17088.1601.27021.17088.1603.3135.22193.3814.2323.87197.2535.1212.01399.2666.044.734100.000提取方法:主成份分析成

    13、份12工业废水.891.155工业化学.807.496工业氨氮.544.769城镇生活污水.828-.423生活化学.881-.342生活氨氮.904-.337成份矩阵a提取方法:主成份。a.已提取了 2个成份。图5由图可以看出,主成分几乎包含了原始变量至少 88%勺信息。图4即解释的总方 差,则显示了各主成分解释原始变量方差的情况, spass默认保留特征根大于1 的主成分,在本例中可看到保留 2个主成分为宜。这2个主成分集中了 6个原始变量信息的88.16%。可见效果比较好,实际上主 成分解释总方差的百分比也可以由图3公因子方差表计算得出,即(0.818+0.897+0.887+0.865

    14、+0.893+0.930 )/6=88.16%成份矩阵图 5 中给出了标 准化原始变量用求得的主成分线性表示的近似表达式, 我们以表中工业氨氮一行 为例,不妨用prin 1,prin2,来表示个个主成分,则由成份矩阵表可以得到标准化的工业氨氮祠.544 xprin 1+0.769 prin2总结:主成分分析法和聚类分析法在多元统计方法占有重要地位, 同时这两种方 法对我们分析现实生活中的问题是有着很大的帮助。 它们在经济学,医学,自然 科学,社会学都有着广泛的应用,为我们解决实际问题,研究新的问题有着举足 轻重的地位。因此我们要深入了解各种分析方法,从而达到更高层次的成就。参考文献:【1】李欣

    15、蕊主成分分析、因子分析、聚类分析的比较与应用 山东教育学院报2007(6)【2】王芳.主成分分析及因子分析的比较与应用 .统计教育。2003.( 5)【3】田兵.系统聚类法及其应用研究J.阴山学刊:自然科学版,2014, 02期(2):11-16.【5】何晓群多元统计分析第四版冲国人民大学出版社,2015.3【6】中国统计年鉴主要城市废水中主要污染物排放情况 2013检测报告:综合报告找克帕同=2015/12/5 J0:27 4LRSI埶=】桂测按告箱黑鞘总文字冥制比,15. 8K殛专利暉 險择准库 百科库踊库 磁其学斥 自逹库工作总结 勰芒抿 顷巨申抿书报苦容称姑亘制比15,&%五辭矶已发誤

    16、丈fi漲善丄 5.B%2:融引丈报吿ISuB%3匚破青15.S%*恃蒲撮告下戳 虫疏皿心朴印陌ar:宦晖盃变號主!s址訐士“丸识专.曲土建卄坊比蛊弓廿 .=T -瞌吟幡乐畀品空吗序空吗肓制戦卓靶氓A绻去Qi.粘 王戌衆対.眸楚虫主宵必詈北蟹龙法只遇:主吨存并哥怂斥亠山沪,三版汁厂巧巻皂右齐三G7餐三輕拓叼卢匸v w -JF -TrF-nF- ft 】*=丿廿三奧世科”弓厂旦一吞3吋虻*7二三咗二3-:睥性丁卫.三參,工2肓字兰三暑-盘雯电才产丄再三閉F *门.嗖处 鼻Ei空劭兰楚钗一耳弋厦就1TE. WHTtfS-*=SGS1. r-i 三注* -. - - -*-: =- =-匕乂 三左-T

    17、A- SZSffii-.a 鼻盲一艺再兰工是主S#frF WTM-*SVrH荟7勺富址供电疋怎.M二垮乏f迈F: az.nc. K r7 3j 6 頁呼三Q.勇7更華W臥酒富咻相E云摊牡士蛉幻盂总军鬥壬眸胃書:主咗即科丘毘週.-iE l-Slr 5!占声占亞学您三黑兮曹.? 旦严芒=h二砂幻左址巴駆齿左建启三岂厉古亘巴注为芒 n 其研宜幕.MS井和师.和1T4欣事祐嘛此 Pf ?r 土宵f 疥园*弓怦弓 -Tti. - - T =-?r-.-. 豎总烈丄丈軽夕至巴丁刃口亠亠卫艺方兰.ftS-主一 疫F E绘-牟灿对即整鹉惑 叱震M覲::祗打阿覽匕苗于 呼g :!遵立電卫上嘗.&2厂!他薑于注!

    18、4尸匕孔P.占?尸TT听班乜=R :宜量 Zf:r:?Ll#-tt +Z1 ti:f 忙去事鼻賞農日* 1 !巧ffcd恬.生畛芳赫書如!划I孙魅巧倉 诵.IfSSl 熬乐吊基元黄11工年建芽們胃檢-K-Li?T-aiK Fl闻倉lii/ei冗壬鼻万査叵兀 f 1* - !j Mfr-二邑*蓋 2桑;、匸寸沿它.夜33予忙简.英:场輝鼻土耳鼻几齣孰 扯豎应mr=HRt.露覺土且一T乔昨鼓许圭們西:s- X s 2=:lflg*r -SJ5Q. -1- !-=;7.3 -R-=*.甘噫止比唱为三 亡耶j*2. M电卉盅晰,*: 1 i *& 弋 A空: Tt!:#C=B rfe ftSTt*匹鹉

    19、手常直覺;-?. *汗汁拾污可耳空需巳R:曹丘=. sss:-a 迁替:甫常 士 L.生花:=価仁八寻壬总吁戸勻i If it上SKA.纱门.転WE型珂.乜壬了臬丈工5话耳艺* “匕三淤曲 从匕心丁十鼻工性量.于ffniWUH9M*K :耳約挖黑匡s讶fsm幻h腎-satist于建仁厦饶一亍 39%B. iSJMT 憎电忙 15 iTK.*MHri-l- SKlMS; ?iK 三豪瞇至士 *工砂辽总*51 于一缶=符烝伍工足鮭工丸爭M r .建“计算打蒼氓吨疋 #S3L-*i+W. fflEfXflIWniS 叽泮毎:生主段匸T行.注封抄KWr*S?:i-4-E蜜加N蔦兰量丄 ? =单二=*右

    20、一厂W紙- - 7- I八三氐-占W:FMH:7亠霍聪運茎聲F 谭転兰荷卸玄豐上主Bfl5*=| 3*K ! 4 主“亠KSiSji.垢 Si在督止前兰虽临-弓參討址三占一号雹.Ijt. a呼虽仔才三比T审芋 5 ?于:弋玉希兀鳌 ri1-: ?:*. 3.iEtr-*J-s. J 丈巧主壬退弍F 刃害.刍兰咒-号F-MPrr酉N沁占*诵护空魄产岂氓F竟工殳富工尸监電.L貞即旺hf扼克汁忙士星叩曲戸忧去亠-*-= s-.t 享畳花刊Ml齐字 琳可王二工 F 确至H县程欢 豪豐岂第曲漳 T三壬豁上霑汀 :哥刊匕二圧j .兰筍匕?1 =英丁 図f 其靳主岂丑比圧巧豹T庁*期星:r乎对兰些亍誓忌互醉

    21、gStB:!3- : 1 :叮:挽习迂上THSiftS*-Sl-. StEtiSJMfi-ftK.-KiK. S- 靑百.士桔畑弭1.員冥佯析“3 = 土lrr*J. 93刊!弋澤*溥主菱工:ft蜀持:S主萤23WEFa更載上11亡二亍二工?&世口叱立昱齐工 卑耳吒?I建億丸旳,检测报告截图BE 1擡一带取崔弊皂陛节调弄就二=厂-%.? =:呂. ?兰 賈鬲对姜旳行hP馥需钿*酣昭内亠时担.i=:1lD 漕灭巧真空転=曾文链魁t竽芫五莖站,誉忙声瓷泄咸里芽氐空屯JS.MF临良益打疙舒忙占总:負* 可J走工工临嚣壬齐=建若迪.4:HSrTiSK.*r L- ir - ZiTFr 3-己主毘扑卽严

    22、58? = S SWT &近幷今;*冋-r,岳暑三昊芒环护容肄?fl:3)云汎首E琉件耍违.勻亲左奥卯三箱弋亞量:齐.=7 VXjxtti.awu. L空仝化孚0881 342 I空港氨麥0.904-337 .英取方法:三或分.,一个.三总回两徉或分5.俎从館=可以着岀.三要旳茨化有几手52ft0-?.gK至少884总 方差厂亘行了说明.2且禾了貝曲交畳巧三安分爼毎旳下.5R4SS款认涤宙 秤性桂以上为三安分的方鑒.咅这灯F氏下可以着2以悲两个三要轩是谖 当的这焉和三晏安牙浓缩88.16艮第N的氓息可兀及吳比象矣济上总方 差的三晏茨分低W至分比h以:&1公因严方差农三區3 =注咅计冀也浪 识(

    23、0.818 * 0. B97 * 0.887 + 0.865 * 0. 893 * 0.930)/ 6 = 88.1 朋或分短 三5结二三茨为冬性农示復邑林隹化馬kN 士从农达式妄:晏农行含茨笑二 立洌矩不=prinl. 2诫代妨有的三要這咬玄力.港it安分可行茨得,含安氨二立标復化亠0544Xprim 0. 769Xprin2.掏要:三安分分析比夷烁折的多元统计方*占有兰要的世红伍妄门的这两 伽万法对亍班实间芒的分析是有遑犬弩孤 他们运死垄手.自杉手.壬会y 有着-泛的住丰为炙*洋衣实琢叵乞于尢护闻乞育三著鬥地方因比炙们 总芟了嶂各巴分析方法从戸达至实丞更需的*= ,片::1:学萨專三或分分析.區严分析.叢类犷折和鞍壹授咅一东工意宇於W行比或,2007:2:方三咬分分析怎後及应耳 统计软頁约凶栄分析.2003年 :3:三旬兵系统襄箕方法及其应丐了:孚木顚列:自杉手农2014 年.02(2):11-16.:5:.多斤统计分折的=三三或艺20比3人艮夭事舅辽战.:6:u|Z三姿域Y的妥g姿污夫莎201S年挥找影统汁年垄.,


    注意事项

    本文(主成分分析和聚类分析的比较.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开