判别分析 ppt课件.ppt
- 文档编号:12089717
- 上传时间:2023-06-04
- 格式:PPT
- 页数:170
- 大小:3.30MB
判别分析 ppt课件.ppt
《判别分析 ppt课件.ppt》由会员分享,可在线阅读,更多相关《判别分析 ppt课件.ppt(170页珍藏版)》请在冰点文库上搜索。
第十一章,判别分析,2023/6/4,2,目录上页下页返回结束,回归模型普及性的基础在于用它去预测和解释度量(metric)变量。
但是对于非度量(nonmetric)变量,多元回归不适合解决此类问题。
本章介绍的判别分析来解决被解释变量是非度量变量的情形。
在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。
判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。
在每种情况下,将对象进行分组,并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。
判别分析的基本思想,判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法分成若干类的情况下,确定样品所属类别的方法。
例如,在医疗诊断中,医生根据体温,脉搏,心率,白血球等多种指标,来判别此人患哪种病。
判别分析的特点,根据已掌握的,历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则,然后,当遇到新样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属类别。
Discriminantanalysis,Fisher判别法距离判别法Bayes判别法逐步判别法,训练样本训练集,检测样本检测集,判别准则,判别效率,学习,检测,评价,判别分析的分类,按判别准则的不同:
距离判别贝叶斯判别费希尔判别,在判别分析中,需要解决的问题,判别准则和判别函数的确立。
判别准则用于衡量样品与各已知组别的接近程度。
常用的有距离准则,费希尔准则,贝叶斯准则。
判别函数是基于一定判别准则计算出的用于衡量样品与各已知组别的接近程度的函数式或描述指标。
判别分析法的基本要求:
分组类型在两组以上第一阶段时每组的元素规模必须在一个以上解释变量必须是可测量的。
判别分析的假设前提:
判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。
即不存在多重共线性问题。
判别分析的假设之二,是各组变量的协方差矩阵相等。
判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。
在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
在这种条件下可以精确计算显著性检验值和分组归属的概率。
当违背该假设时,计算的概率将非常不准确。
第八章,第一节,机动目录上页下页返回结束,距离判别,距离判别的最直观的想法是计算样品到第i类总体的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
马氏距离的定义:
设总体G为m元总体(考察m个指标),均值向量为,协方差阵为,则样品,
(二)两个总体距离判别法,先考虑两个总体的情况,设有两个协差阵相同的m维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来指定判别规则,有:
1、协方差阵相等,则前面的判别法则表示为,当和已知时,是一个已知的m维向量,W(y)是y的线性函数,称为线性判别函数。
称为判别系数。
用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。
例在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。
考核企业经营状况的指标有:
资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。
现有二个企业,观测值分别为:
(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?
线性判别函数:
2、当总体的协方差已知,且不相等,当总体的方差未知时,应该用样本的协方差矩阵代替。
步骤如下(假如两个总体):
(1)分别计算各组的离差矩阵S1和S2;
(2)计算(3)计算类的均值(4)计算(5)计算(6)生成判别函数,将检验样本代入,得分,判类。
随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:
设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i=,又设Y是一个待判样品。
则与的距离为(即判别函数),(三)多总体的距离判别法,上式中的第一项Y-1Y与i无关,则舍去,得一个等价的函数,将上式中提-2,得,则距离判别法的判别函数为:
判别规则为,注:
这与前面所提出的距离判别是等价的.,24,距离判别,目录上页下页返回结束,25,目录上页下页返回结束,2.协差阵不相同。
2023/6/4,中国人民大学六西格玛质量管理研究中心,26,目录上页下页返回结束,(四)对判别效果做出检验,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。
(四)对判别效果做出检验1、错判概率,1、错判概率,第八章,第二节,机动目录上页下页返回结束,贝叶斯判别法,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。
距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。
贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。
办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。
按人们主观意识,一个人是好人或坏人的概率均为0.5。
坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。
一、标准的Bayes判别,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。
一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。
贝叶斯公式是一个我们熟知的公式,设有总体,具有概率密度函数。
并且根据以往的统计分析,知道出现的概率为。
即当样本发生时,求他属于某类的概率。
由贝叶斯公式计算后验概率,有:
判别规则,则判给。
在正态的假定下,为正态分布的密度函数。
则判给。
上式两边取对数并去掉与i无关的项,则等价的判别函数为:
下面讨论总体服从正态分布的情形,问题转化为若,则判。
则判别函数退化为,令,问题转化为若,则判。
完全成为距离判别法。
令,有,问题转化为若,则判。
当先验概率相等,,二、考虑错判损失的Bayes判别分析,设有总体,具有概率密度函数。
并且根据以往的统计分析,知道出现的概率为。
又D1,D2,Dk是R(p)的一个分划,判别法则为:
当样品X落入Di,时,,这个分划应该使平均损失最小。
【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。
C(j/i)表示相应错判所造成的损失。
则平均错判损失为:
使ECM最小的分划,是Bayes判别分析的解。
若总体G1,G2,Gk的先验概率为且相应的密度函数为,损失为时,则划分的Bayes解为其中它表示把样品X判归的平均损失。
含义是:
当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。
第八章,第三节,机动目录上页下页返回结束,费希尔判别,Discriminantanalysis,Fisher线性判别法,Fisher判别的基本思想将m组n维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。
平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L),x1,x2,L:
c1x1+c2x2c=0,令:
F(x1,x2)=c1x1+c2x2F(x1,x2):
判别函数c:
判别值,G1,G2,Fisher线性判别法,一、两个总体的费歇(Fisher)判别法,X不能使总体单位尽可能分开的方向,u能使总体单位尽可能分开的方向,旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,Discriminantanalysis,已知:
数据属性有n个,每个数据点为n维向量X:
已知总体数据分为两类:
G1和G2,总体G1有p个样本点,总体G2有q个样本点。
目标:
求解在n维空间中总体G1和总体G2的最优分界平面。
(一)费歇判别的基本思想,从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。
Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。
该判别方法对总体的分布不做任何要求。
从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数.,Discriminantanalysis,定义线性判别函数为:
其中Ci(i=1,2,n)为常数(待定系数)。
若判别值为C,对于任何未知数据点X(x1,x2,xn),代入判别函数,依据F(x1,x2,xn)与C值的比较,可以判别点X属于哪一类。
1、确定待定系数Ci(i=1,2,n)2、确定判别值C,Discriminantanalysis,将类G1的p个点、类G2的q个点分别代入判别函数:
其中,,确定待定系数Ci,Discriminantanalysis,令:
A与G1和G2两类点的几何中心的距离相关。
显然,判别函数F(x1,x2,xn)应该使A值越大越好。
令:
B与G1和G2两类点的相对于各自几何中心的离差相关。
显然,判别函数F(x1,x2,xn)应该使B值越小越好。
Discriminantanalysis,构造函数I:
选择合适的待定系数Ci(i=1,2,n),使得函数I(C1,C2,Cn)达到极大值。
Discriminantanalysis,Discriminantanalysis,Discriminantanalysis,消去非零的因子,得到求解待定系数(C1,C2,Cn)的线性方程组:
Discriminantanalysis,确定判别值C,判别函数已知,不妨写成:
将G1的p个点、G2的q个点分别代入判别函数:
对G1、G2的(p+q)个点的判别函数值取总体的平均值:
显然,值是两类点的判别函数值的加权平均,处于两类判别函数平均值之间,也等价于两类点的总体几何中心的判别函数值。
因此,将判别值C取为值:
Discriminantanalysis,Fisher线性判别的基本步骤,问题已知数据样本点分为两类:
G1和G2,G1有p个点,G2有q个点。
求出判别函数F(x1,x2,xn)和判别值C。
对于任何未知数据点X(x1,x2,xn),依据F(x1,x2,xn)与C值的比较,判别点X属于哪一类。
Discriminantanalysis,STEP1,先对样本点数据Xi
(1)(xi1
(1),xi2
(1),xin
(1)(i=1,p)、Xi
(2)(xi1
(2),xi2
(2),xin
(2)(i=1,q)分别计算以下求和以及平均值:
Discriminantanalysis,STEP2,计算di和Sij,注意对称性Sij=Sji:
Discriminantanalysis,STEP3,解线性代数方程组:
若方程有解,得到判别函数F:
Discriminantanalysis,STEP4,将平均值代入判别函数,然后计算判别值C:
Discriminantanalysis,STEP5,对未知数据X(x1,x2,xn)进行判别:
将数据X(x1,x2,xn)代入判别函数F,与判别值进行比较,判别其属于哪一类。
Discriminantanalysis,Fisher线性判别的应用举例,x1,x2,Discriminantanalysis,Discriminantanalysis,Discriminantanalysis,Discriminantanalysis,判别效果的评价,错判损失错判率,N(G1|G2),N(G2|G1),Discriminantanalysis,p(x),x,G1:
N(1,1),G2:
N(2,2),1,2,*,P(G1|G2),P(G2|G1),Discriminantanalysis,检验判别效果的方法,训练集的回判训练集(Learningset):
训练样本集检测集(Testset):
检测样本集(类别未知)利用训练集作为检测集:
用判别方法对已知类型的样本进行回判,统计判错的个数以及占样本总数的比例,作为错判率的估计。
特点:
容易低估错判率。
Discriminantanalysis,其中系数确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。
当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。
假设我们可以得到一个线性判别函数:
我们可以把两个总体的样品代入上面的判别式,分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:
最佳的线性判别函数应该是:
两个重心的距离越大越好,两个组内的离差平方和越小越好。
(三)判别准则,如果由原始数据y求得判别函数得分为Y*,对与一个样品代入判别函数中,若Y*Y0,则判给G1,否则判给G2。
二、多个总体的Fisher判别法,
(一)判别函数,Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数,设有个总体,分别有均值向量,,和协方差阵,分别各总体中得到样品:
第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,组间离差平方和,如果判别分析是有效的,则所有的样品的线性组合满足组内离差平方和小,而组间离差平方和大。
则,而所对应的特征向量即,Fisher样品判别函数是,然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。
类推得到m(mk)个线性函数。
关于需要几个判别函数得问题,需要累计判别效率达到85以上,即有设为B相对于E得特征根,则,以m个线性判别函数得到的函数值为新的变量,再进行距离判别。
判别规则:
设Yi(X)为第i个线性判别函数,,则,第八章,第四节,机动目录上页下页返回结束,判别效果的检验及各变量判别能力的检验,以上介绍的判别准则,都是根据已知观测值(即训练样本),建立判别函数,并由判别函数给出空间的一个划分D(即判别法)。
建立在样本基础上的判别法则,其判别能力显然与样本是否来自不同的总体有关;也与考察的m个判别指标变量是否能区分k个不同的总体有关。
下面来介绍两总体判别效果的检验,当总体数k=2时,所谓判别效果的检验,就是检验两总体的均值是否有显著性差异。
若两总体的均值不相等,则建立的判别准则是有意义的,否则没意义。
除非考虑其它新的判别变量。
其中是第i个总体的样品个数,在两总体均值相等的假设成立下,F统计量服从分子自由度为m而分母自由度为的F分布,由此求出显著性概率p,若p值小于给定的显著性水平则否定两总体均值相等的假设。
反之,则两总体的均值没显著性差异。
现在推广到k个总体判别效果的检验具体做法是,首先检验k个类的均值向量是否全都相等,若不全相等,则进一步对K个总体两两配对,然后再检验这两总体的判别效果是否显著,具体方法与两总体判别效果的检验相同。
根据威尔克斯分布的定义,可知,对各变量判别能力的检验,当检验K个类的均值向量是否全都相等时,若K个总体的均值向量之间有显著性差异,也不能保证其个分量的均值向量之间有显著性差异,若第i个分量之间没有显著性差异,说明相应的对判别分类不起作用,应该删除。
变量判别能力的度量;变量判别能力的检验;详细过程见书,第八章,第五节,机动目录上页下页返回结束,逐步判别法,基本思想:
通常判别函数中会包含多个变量但这些在判别函数中所起的作用是不同的,有些变量重要,有些变量不重要。
若将重要的变量忽略了,判别效果肯定不行。
另一方面,若判别变量太多,计算量大,影响估计精度,对判别效果产生影响。
因此,变量选择是判别分析中的重要问题。
基本方法,逐步判别法采用有进有出的算法,即每一步都进行检验。
首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。
逐步判别法的基本原理,根据多元方差分析的原理,定义A为样本点的组内离差平方和,T为样本点的总离差平方和,此时有要分析某一变量是否有显著的判别能力,可按以下步骤来进行:
设判别函数中已有q个变量,记为这时考虑是否需要增加变量,此时可计算偏维尔克斯(Wilks)统计量,可以证明记,则表明变量判别能力显著,在判别函数中应加入变量对于判别函数中已存在的q个变量X*中,是否有对判别能力不显著的变量存在,若存在,应予以剔除。
考虑变量是否从判别函数中剔除,记删除掉的变量组为X*(K),则有,此时,如果有则表明变量的判别能力不显著,需要将从X*中剔除。
重复上述变量引入和剔除的过程,直至既不能引入新变量,又不能剔除已有的变量,此时将已选中的变量来建立判别函数。
第八章,第六节,机动目录上页下页返回结束,判别分析方法步骤及框图,102,目录上页下页返回结束,使用判别分析可以看作是下面6个步骤的过程:
第1步:
判别分析的对象判别分析的研究目的:
1.确定在两个或者更多事先定义的组上的一组变量的平均得分剖面是否存在显著性差异。
2.确定哪些变量在两个或更多组的平均得分剖面的差异中解释最多。
3.在一组变量得分的基础上,建立将对象(个体、公司、产品等等)分类的步骤。
4.建立由这组变量形成的组与组之间判别函数的数目及构成。
103,目录上页下页返回结束,第2步:
判别分析的研究设计判别分析的成功应用需要考虑到几个要点。
这些要点包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。
(一)解释变量和被解释变量的选择要应用判别分析,研究者必须首先指定解释变量与被解释变量。
这里,解释变量为定量变量,而被解释变量为定性变量。
104,目录上页下页返回结束,研究者首先应该关注被解释变量。
被解释变量的组数可以是两个或更多,但这些组必须具有相互排斥性和完全性。
被解释变量有时确实是定性的变量。
然而也有一些情况,即使被解释变量不是真的定性变量,判别分析也是适用的。
我们可能有一个被解释变量是顺序或者间隔尺度的变量,而要作为定性变量使用。
这种情况下我们可以创建一个定性变量。
当确定了被解释变量后,研究者必须确定分析中应包括的解释变量。
解释变量的选择通常有两种方法。
第一种是从以前的研究中或者从该研究问题根本的理论模型中确定变量。
第二种方法是直觉运用研究者的知识,直观地选择没有以前研究或理论存在但是逻辑上与预测解释变量的组相关的变量。
105,目录上页下页返回结束,
(二)样本容量判别分析对样本量与预测变量个数的比率很敏感。
许多研究建议比率为每个预测变量20个观测。
尽管这个比率在实际中难以保持,但研究者应注意,当样本量相对于解释变量个数在减少时,结果是不稳定的。
建议最小的样本量是每个变量有5个观测。
除总的样本量以外,研究者还必须考虑每组的样本容量。
至少,最小的组的大小必须超过解释变量的个数。
作为实际的指导,每组应至少有20个观测。
但即使所有的组大小都超过了20,研究者还应注意组的相对大小。
如果组的大小相差很大,这可能影响到判别函数的估计和观测的分类。
在分类阶段,大的组有不相称的高的分类机会。
106,目录上页下页返回结束,(三)样本的分割很多时候样本需要分割为两个子样本,一个用于估计判别函数,另一个用于验证。
每个子样本都有适当的大小来支持结论是很重要的。
分割样本有很多种方法,最常用的一种是通过一个子样本来估计判别函数,而用另一个子样本来验证。
常用的过程是将整个样本随机地分为两组。
其中的一组,分析样本是用来估计判别函数的。
另一组保留样本,是用来验证结论的。
这种验证方法称为分割样本或者交叉验证方法。
107,目录上页下页返回结束,如果划分分析样本和保留样本没有固定的原则。
最常用的程序是分为两半。
当选择分析组和保留组的个体时,通常遵循比例分层抽样。
也就是分析组和保留组的各组大小比率应与整个样本的各组大小比率相同。
如果研究者要划分样本,这个样本应该充分的大。
一般来讲,研究者需要整个样本至少为100,将它分为两组。
108,目录上页下页返回结束,第3步:
判别分析的假定推导判别函数的关键假定是解释变量的多元正态性和由被解释变量定义的各组的未知但相等的协方差结构。
不满足多元正态性假定在估计判别方程时可能会出现问题。
因此,如果可能的话,建议使用Logistic回归作为一种替代方法。
不等的协方差矩阵可能会负面影响分类过程。
如果样本量小而协方差阵不等,那么估计过程的统计显著性会受到负面影响。
最可能的情况是在适当的样本量的组之间存在不等的协方差阵,那么观测会被“过度归类”到大的协方差阵的组中。
可以通过增加样本量和使用各组特定的协方差阵减小这种影响。
2023/6/4,109,目录上页下页返回结束,最后,如果组间的协方差阵存在大的差异,没有方法可以减小这种影响时,在许多统计问题中可以使用二次判别技术。
另一个可能影响结果的是解释变量的多重共线性。
当使用逐步判别时这种考虑尤为重要。
研究者在解释判别方程时必须注意多重共线性的程度和它对哪些变量进入逐步解的影响。
2023/6/4,110,目录上页下页返回结束,第4步:
估计判别模型和评估整体拟合为了推导判别函数,研究者必须确定估计的方法,然后确定保留的函数个数。
随着估计的函数,可以用多种方法来评估模型拟合。
首先,判别Z得分,可以为每一个观测计算。
基于Z得分的各组均值的比较提供了组与组之间判别的一种测量。
通过分到正确类中的观测来测量预测精度。
一系列准则可以用来评价判别过程是否达到了实际的或者统计的显著性。
最后,个体诊断可以分析每个观测的分类精度和它对于整个模型估计的相对影响。
111,目录上页下页返回结束,第5步:
结果的解释,2023/6/4,112,目录上页下页返回结束,解释判别函数传统的方法是观察计算判别函数时赋予每个变量的标准化判别权重(有时也称为判别系数)的符号和大小。
忽略符号时,较大权重的解释变量意味着对判别函数的判别力贡献更多。
符号只是代表那个变量有正的还是负的贡献。
对判别权重的解释也有一些批评。
比如解释变量存在多重共线性情况时,判别权重可能会出现问题。
另一个问题是判别权重被认为不稳定。
近年来,由于判别权重的缺陷,判别载荷逐渐作为解释的基础。
判别载荷,有时也称为结构相关系数,是每个解释变量与判别函数的简单相关系数。
判别载荷反映的是每个解释变量对判别函数的相对贡献。
判别载荷也可能存在不稳定性。
2023/6/4,113,目录上页下页返回结束,判别分析的逻辑框图如下:
第八章,第七节,机动目录上页下页返回结束,判别分析的上机实现,116,目录上页下页返回结束,这里举两个例子,一个例子是分两组的情况,一个是分多组的情况。
我们分别用SPSS软件中的Discriminant模块来实现判别分析。
117,目录上页下页返回结束,118,目录上页下页返回结束,
(一)二元变量的判别
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 ppt课件 ppt 课件