13判别分析.ppt
- 文档编号:18723728
- 上传时间:2023-10-19
- 格式:PPT
- 页数:43
- 大小:218.50KB
13判别分析.ppt
《13判别分析.ppt》由会员分享,可在线阅读,更多相关《13判别分析.ppt(43页珍藏版)》请在冰点文库上搜索。
判别分析,DiscriminantAnalysis,流行病与卫生统计学系,聚类分析:
对(样本)总体进行分类判别分析:
对(样本)个体进行分类,判别与聚类,聚类分析可以对样本/指标进行分类,判别分析只对样本进行分类。
聚类分析事先不知道事物的类别,也不知道应分几类;判别分析必须事先知道事物的类别,也知道应分几类。
聚类分析不需要分类的历史资料,能直接对样本进行分类;判别分析需要历史资料去建立判别函数,然后才能对样本进行分类。
判别分析:
根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。
应用,在经济学中,根据人均国民收入,人均工农业产值,人均消费水平等多个指标来判定一个国家的经济发展程度所属等级在农林害虫预报中,根据以往的虫情,多种气象因子来判别一个月后的虫情是大发生,中发生或正常在体育运动中,判别某游泳运动员是适合练蛙泳,仰泳还是自由泳在医疗诊断中,根据某人多种检验指标来判断此人是某病患者还是非患者,判别分析诊断,临床诊断:
急腹症的患者,需要诊断患病原因。
诊断阑尾炎时需要与其他急腹症作鉴别诊断;确诊为阑尾炎后,还需要诊断属何种类型,如是否并发腹膜炎,是否穿孔等。
放射学诊断病理学诊断,什么是判别分析?
y=f(x1,x2,xk),x1,x2,xk,x1,x2,xk,病人(n1),正常人(n2),y,y,分类明确的数据,计算机疾病辅助诊断原理,以一批正常人和一批已经确诊的病人为样本,收集他们的各项检验指标,如化验指标、X线、心脑电图、超声波、CT等诊断指标,然后利用这批分类明确的样本在这些相同指标上的观察值,建立一个关于指标的判别判函数和判别准则(区分病人和正常人的界限的方法),使得按此准则来判断这批样本归属的正确率达到最高。
这就是计算机疾病辅助诊断方法,它的的理论依据就是判别分析方法原理。
第一节判别分析的基本思想,判别分析(discriminantanalysis):
根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。
判别函数(discriminantfunction):
指的是一个关于指标变量的函数。
每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。
判别准则(discriminantrule):
对样本的判别函数值进行分类的法则。
建立判别准则:
建立判别函数:
其原则是,将所有样本按其判别函数值的大小和事先规定的判别原则分到不同的组里后,能使得分组结果与原样本归属最吻合。
回代样本:
即计算出每一个样本的判别函数值,并根据判别准则将样本归类。
估计回代的错误率:
即比较新的分组结果和原分组结果的差别,并以此确定判别函数的效能;判别新的样本:
如果判别函数效能较高,可用以对新样本进行归类判别。
判别分析的内容,判别分析的方法,Fisher判别分析法采用Fisher判别准则:
它使得类间点的距离最大,而类内点的距离最小。
适合于两类的判别分析。
Bayes判别分析法采用Bayes判别准则:
它使得每一类中的每个样本都以最大的概率进入该类。
适合于多类的判别分析。
第二节Fisher判别分析法,建立Fisher判别函数假设A和B为分类明确的两类症状。
在总体A中观察了p例,在总体B中观察了q例,每一例记录了k个指标,它们是x1,x2,xk。
令y是这k个指标的一个线性函数,即,,其中,c1,c2,ck是待估计的未知系数。
称这个线性函数是Fisher判别函数。
以p=q=k=2来说明Fisher判别分析法的基本原理和计算方法,根据Fisher判别分析法的基本原理,就是要选择一组适当的系数c1,c2,ck,使得类间差异D最大且类内差异V最小,即,使得下式的值Q达到最大。
根据多元函数求极值的原理和方法,使得Q取最大值的点是Q的一阶偏导函数等于0的方程组的解。
令上述方程组的解是:
那么,Fisher判别函数估计式是:
建立Fisher判别准则令判别临界点是:
设y*是某个样本的判别函数值,则,Fisher判别准则是:
如果y*y0,则y*A类,估计各项指标对判别函数的贡献率,对贡献率很小的指标可以剔除,重新建立只含有重要指标的判别函数。
第三节Bayes判别分析法,Bayes判别法是以概率论中Bayes条件概率公式为基础导出的判别法。
WarnerHR等在1961年首先把它成功底应用于鉴别先天性心脏病,他们利用50个症候,鉴别33种先天性心脏病,借助于计算机,共试验36例,结果由计算机得出的判别结果与三位有经验的心脏病专家通过生理学研究和外科检查的诊断结论一致。
Bayes判别的基本思想,E.g.急性肠梗阻的鉴别诊断,第三节Bayes判别分析法,建立Bayes判别函数假设x=(x1,x2,xk)出现在第i类中的事前概率是pi,i=1,2,g,它可以是理论值,也可以是经验值。
当样本是随机抽样得到的,事前概率可以取样本估计值,即,,再假设g个总体均服从k元正态分布,则对于任意一个样本x*=(x1*,x2*,xk*),它属于类s的事后概率是:
其中,建立Bayes判别准则将每一个点x判别到事后概率最大的类中。
估计各项指标对判别函数的作用一元方差分析:
检验每一个指标变量是否对判别函数的判别能力有显著性意义。
多元方差分析:
检验所有指标变量是否联合对判别函数的判别能力有显著性意义。
如果判别函数中特异性强的指标越多,则判别函数的判别功能也就越强。
判别准则效能的评估错判率估计(error-countestimates)事后概率错误率估计(posteriorprob.error-rate),例2、为研究舒张期血压与血浆胆固醇对冠心病的作用,调查了50-59岁的女冠心病人15名和正常人16名。
他们的舒张期血压(x1)与血浆胆固醇(x2)数据列在下表中。
试用判别分析法建立判别冠心病人与正常人的判别函数。
datad2;doi=1to16;dogrp=1to2;inputidx1x2;output;end;end;cards;19.865.18110.662.07213.333.73212.534.451513.335.961511.203.4216.169.333.63;run;procdiscrimdata=d2outstat=outanovamanovapool=test(协差阵齐性检验)listerr(在输出结果中显示训练样本回代后被错误分类的结果)posterr(显示分类准则的后验错分概率估计值);classgrp;varx1x2;priorsprop;(用于指定先验概率的类别)run;,SAS程序,DiscriminantAnalysis
(1)TestofHomogeneityofWithinCovarianceMatricesTestChi-SquareValue=2.60with3DFProbChi-Sq=0.4567Sincethechi-squarevalueisnotsignificantatthe0.1level,apooledcovariancematrixwillbeusedinthediscriminantfunction.
(2)UnivariateTestStatisticsFStatistics,NumDF=1DenDF=29TotalPooledBetweenRSQ/VariableSTDSTDSTDR-Squared(1-RSQ)FPrFX11.66001.38621.31820.3258420.483314.01660.0008X21.18231.02860.85200.2682860.366710.63300.0028(3)MultivariateStatisticsandExactFStatisticsStatisticValueFNumDFDenDFPrFWilksLambda0.4465967417.34822280.0001PillaisTrace0.5534032617.34822280.0001Hotelling-LawleyTrace1.2391565217.34822280.0001RoysGreatestRoot1.2391565217.34822280.0001,SAS输出结果,(4)ResubstitutionResultsusingLinearDiscriminantFunctionPosteriorProbabilityofMembershipinGRP:
ObsFromClassifiedGRPintoGRP12112*0.30450.6955421*0.82990.1701621*0.57160.42841112*0.16720.83281312*0.27190.7281*Misclassifiedobservation(5)NumberofObservationsandPercentClassifiedintoGRP:
FromGRP12Total11231580.0020.00100.0022141612.5087.50100.00Total141731Percent45.1654.84100.00Priors0.48390.5161,SAS输出结果,(6)ErrorCountEstimatesforGRP:
12TotalRate0.20000.12500.1613Priors0.48390.5161(7)PosteriorProbabilityErrorRateEstimatesforGRP:
Estimate12TotalStratified0.18420.09110.1361Unstratified0.18420.09110.1361Priors0.48390.5161,SAS输出结果,1)两个指标对判别函数有着显著性意义(独立作用,p=0.0008和p=0.0028,联合作用,p=0.0001)。
2)从回代检验可以看出,冠心病组的错判率估计是20%(假阴性率),正常组的错判率估计是12.5%(假阳性率),总错判率估计是16.13;冠心病组的事后概率错误率估计是18.42%,正常组的事后概率错误率估计是9.11%,总事后概率错误率估计是13.61%。
3)总的来看,这个判别函数的错误率比较高,不适于实际使用。
可以通过增加其它指标变量来提高判别效能。
专业结论,每一个类中的k个指标变量均服从k元正态分布;如果不满足正态分布条件,可用非参数判别分析方法,或者建立logistic回归模型,作为判别函数;样本数要适当,重要指标变量不要遗漏;要评估判别函数的判别效能,包括三个方面:
原始数据的分类要可靠准确;指标变量对判别函数的作用要显著;判别函数的回代错判率和事后概率错误率要小。
使用Bayes判别分析法注意事项,对于非正态分布的数据,当分类不多时,最好的解决方法是使用logistic回归分析法来估计判别函数。
这种方法首先是估计出有效的判别函数,然后对各种不同的判别准则(临界点)对应的判别结果做出评价,从中选出最合理可靠的一种。
用logistic回归分析方法进行非参数判别分析,【例13-2】用logistic回归分析方法进行非参数判别分析某医院对53个接受前列腺癌手术治疗的病人,观察了肿瘤是否已扩散至邻近的淋巴结。
下表列出的是手术时直接观察到的结果和手术前的一些指标观察值。
其中,y=1为扩散,y=0为未扩散;x=X线,s=触诊肿瘤分期,g=活组织检查肿瘤分级,age=诊断时患者年龄,acid=血清磷酸酶水平。
试用手术前观察到的各项指标对前列腺癌是否扩散做出预报。
表13-2前列腺癌手术治疗的病人资料,【SAS程序】dataeg13_2;inputxsgageacidy;lgacid=log(acid);sg=s*g;cards;000664800106150000068560011645000005682111168126101164400;run;proclogisticdata=eg13_2;modely=xsgsglgacidage/selection=stepwisesle=0.1sls=0.1ctablepprob=0.5;run;,其中,ctable表示输出判别表,pprob=0.5表示用概率0.5作为扩散与否的临界值。
SAS输出结果】TheLOGISTICProcedureDataSet:
WORK.DResponseVariable:
YResponseLevels:
2NumberofObservations:
53LinkFunction:
LogitResponseProfileOrderedValueYCount1033(未扩散)2120(已扩散),数据信息。
从ResponseProfile可以看到,变量y的排列顺序是0,1,因此模型分析的是y=0时的概率,即,未扩散的概率。
Step0.Interceptentered:
ResidualChi-Square=25.2764with6DF(p=0.0003)Step1.VariableXentered:
ModelFittingInformationandTestingGlobalNullHypothesisBETA=0InterceptInterceptandCriterionOnlyCovariatesChi-SquareforCovariates-2LOGL70.25259.00111.251with1DF(p=0.0008)ResidualChi-Square=17.8700with5DF(p=0.0031),Step2.VariableSentered:
ModelFittingInformationandTestingGlobalNullHypothesisBETA=0InterceptInterceptandCriterionOnlyCovariatesChi-SquareforCovariates-2LOGL70.25253.35316.899with2DF(p=0.0002)ResidualChi-Square=15.1217with4DF(p=0.0045),Step3.VariableLGACIDentered:
ModelFittingInformationandTestingGlobalNullHypothesisBETA=0InterceptInterceptandCriterionOnlyCovariatesChi-SquareforCovariates-2LOGL70.25248.98621.266with3DF(p=0.0001)ResidualChi-Square=12.0549with3DF(p=0.0072)NOTE:
No(additional)variablesmetthe0.1significancelevelforentryintothemodel.,SummaryofStepwiseProcedureVariableNumberScoreWaldPrStepEnteredRemovedInChi-SquareChi-SquareChi-Square1X111.2831.0.00082S25.6394.0.01763LGACID34.5808.0.0323,AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPrStandardizedOddsVariableDFEstimateErrorChi-SquareChi-SquareEstimateRatioINTERCPT111.75554.94975.64070.0175.X1-2.05500.79766.63800.0100-0.5152570.128S1-1.76380.74835.55620.0184-0.4907710.171LGACID1-2.29221.13874.05200.0441-0.3982080.101,ClassificationTableCorrectIncorrectPercentages-ProbNon-Non-Sensi-Speci-FalseFalseLevelEventEventEventEventCorrecttivityficityPOSNEG-0.500271010669.881.850.027.037.5,分类结果表。
它是将每个样本的观察值回代上述得到的拟和模型,计算概率p(y=0|x),并以0.5为临界值(程序中pprob=0.5决定,即,p0.5则未扩散,否则已扩散)将样本判别为为扩散和扩散两种,然后与原始数据比较,计算其灵敏度、特异度、假阳性和假阴性。
如果以p=0.5为临界值,即,p0.5为未扩散,p0.5为扩散,那么,33个未扩散患者中的27个被判别为未扩散,6个被判别为已扩散;20个已扩散患者中的10个被判别为已扩散,10个被判别为未扩散。
所以,该模型判别的结果是:
灵敏度(sensitivity)=27/33=81.8%,特异度(specificity)=10/20=50.0%,假阳性率(falsepositiverate)=10/37=27.0%,假阴性率(falsenegativerate)=6/16=37.5%,判别正确率(correct)=(27+10)/53=69.8%。
如果以p=0.3为临界值,即,p0.3为未扩散,p0.3为扩散,那么,判别结果表如下:
ClassificationTableCorrectIncorrectPercentages-ProbNon-Non-Sensi-Speci-FalseFalseLevelEventEventEventEventCorrecttivityficityPOSNEG-0.30030911373.690.945.026.825.0,显然,用0.3作为临界值来判别比用0.5作为临界值来判别准确率提高很多,反应在总的准确率得到提高,由69.8%增加到73.6%;假阴性得到降低,由37.5%降到25.0%。
由此可见,对于logistic回归分析得到的判别函数,选取合适的临界点非常关键。
ClassificationTableCorrectIncorrectPercentages-ProbNon-Non-Sensi-Speci-FalseFalseLevelEventEventEventEventCorrecttivityficityPOSNEG-0.00033020062.3100.00.037.7.0.10033218066.0100.010.035.30.00.20031713271.793.935.029.522.20.30030911373.690.945.026.825.00.400291010473.687.950.025.628.60.500271010669.881.850.027.037.50.60025137871.775.865.021.938.10.700221641171.766.780.015.440.70.800181731566.054.585.014.346.90.900111912256.633.395.08.353.71.00002003337.70.0100.0.62.3,总结,什么是判别分析?
Fisher判别准则和Bayes判别准则各是什么?
评估一个判别函数的判别效能的三个条件是什么?
聚类分析和判别分析的主要区别是什么?
结束,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 13 判别分析