欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOC文档下载
    分享到微信 分享到微博 分享到QQ空间

    岭回归解决多重共线性.doc

    • 资源ID:1777334       资源大小:333KB        全文页数:9页
    • 资源格式: DOC        下载积分:10金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    岭回归解决多重共线性.doc

    1、重庆大学硕士课程论文 应用回归分析一、引言回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。二、认识多重共线性(一)多重共线性的定义设回归模型如果矩阵的列向量存在一组不全为零的数使得, =1,2,则称其存在完全共线性,如果, =1,2,则称其存在近似的多重共线性。(二)多重共线性的后果1.理论后果 对于多元线性回归来讲,大

    2、多数学者都关注其估计精度不高,但是多重共线性不可能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量很小的时候,多重共线性才是非常严重的。多重共线性的理论后果有以下几点: (1)保持OLS估计量的BLUE性质;(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。(3)近似的多重共线性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样的性质;如果X变量的取值固定情况下,反复对样本进行取样,

    3、并对每个样本计算OLS估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体取样时仍存在样本间的共线性。 2.现实后果(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,估计精度不高;(2)置信区间比原本宽,使得接受假设的概率更大;(3)统计量不显著;(4)拟合优度的平方会很大;(5)OLS估计量及其标准误对数据微小的变化也会很敏感。(三)多重共线性产生的原因1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存

    4、在着共线性。2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。(四) 多重共线性的识别 1.直观的判断方法(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。(2)回归系数的符号与专业知识或一般经验相反(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的通过(4)如果增加一个变量或删除一

    5、个变量,回归系数的估计值发生了很大的变化(5)重要变量的回归系数置信区间明显过大2.方差扩大因子法()定义=其中是以为因变量时对其他自变量的复测定系数。一般认为如果最大的超过10,常常表示存在多重共线性。事实上=10这说明0.9。3.特征根判定法根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明有多少个特征根近似为零矩阵,就有多少个多重共线性。根据条件数, 其中为最大的特征根,为其他的特征根,通常认为010存在着多重共线性。(五)多重共线性的处理方法1增加

    6、样本容量当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。2剔除法对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。3主成分法当自变量间有较强的线性相关性时,利用个变量的主成分,所具有的性质,如果他们是互不相关的,可由前个主成来建立回归模型。由原始变

    7、量的观测数据计算前个主成分的得分值,将其作为主成分的观测值,建立与主成分的回归模型即得回归方程。这时元降为元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响4(偏最小二乘法)H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最

    8、后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。5岭回归法.岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式,参数的普通最小二乘估计为=, 岭回归当自变量存在多重共线性|0时,给矩阵加上一个正常系数矩阵,那么=,当时就是普通最小二乘估计。三、实际的应用 我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。设模型为 (3.1)(一) 普通的

    9、最小二乘法对模型进行最小二乘估计得到如下的结果: 表3.1:模型总结ModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.998a.996.995161.9431718.9961198.108419.000 表3.2: 方差分析表ModelSum of Squares df Mean SquareFSig.Regression1.257E843.142E71.198E3.000aResidual498286.227

    10、1926225.591Total1.262E823表3.3:系数矩阵表ModelBStd. ErrorBetatSigToleranceVIF1-193.968311.594-.623.541.622.393.4871.582.130.002455.510.025.016.1881.570.133.01568.6941.202.743.3491.617.122.004224.271-.030.117-.023-.261.797.02737.372调整的可决系数为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,

    11、但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。 根据方差扩大因子=455.510, =68.694, =224.271, =37.372.均大于10说明存在多重共线性。此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:表3.4: 多重共线性诊断表ModelDimensionEigenvalueCondition IndexVariance Proportions(Constant)114.4121.000.00.00.00.00.002.5682.788.01.00

    12、.00.00.003.01716.264.13.00.00.05.224.00339.288.25.00.80.07.395.00171.989.611.00.20.88.39从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。(二)运用岭回归解决多重共线性 用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:表3.5: 岭参数K值表 K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.022974.05000 .99450 .29876

    13、1 .231025 .351029 .109212.10000 .99286 .279395 .234139 .315824 .148780.15000 .99135 .268288 .234093 .295846 .168122.20000 .98984 .260456 .232912 .282446 .178951.25000 .98824 .254302 .231210 .272489 .185418.30000 .98652 .249140 .229240 .264570 .189368.35000 .98466 .244625 .227127 .257967 .191744.4000

    14、0 .98265 .240562 .224938 .252270 .193079.45000 .98050 .236833 .222713 .247230 .193695.50000 .97822 .233363 .220477 .242684 .193798.55000 .97581 .230101 .218244 .238524 .193528.60000 .97327 .227009 .216026 .234672 .192980.65000 .97062 .224062 .213829 .231075 .192222.70000 .96786 .221240 .211658 .2276

    15、90 .191305.75000 .96501 .218527 .209517 .224485 .190265.80000 .96206 .215912 .207406 .221437 .189132.85000 .95903 .213385 .205328 .218526 .187927.90000 .95591 .210938 .203284 .215736 .186667.95000 .95273 .208564 .201273 .213056 .1853661.0000 .94948 .206258 .199296 .210473 .184034 图3.1 岭迹图从岭迹图上看,最小二乘

    16、的稳定性很差,当稍微增大时,系数有较大的变化。对各个变量分别来看,当=0, 、和对于变量有显著性正的影响,对于变量有负的影响,从岭回归的角度来看,变量和随着的增大其系数值迅速减小最终趋于稳定,随着的增加变化不大,对于讲,当逐渐增大时,由负的影响变为正的影响。 由于和的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看,和只要保留一个就可以了。和的岭回归系数相对稳定。通过分析,决定剔除,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果: 表3.6 :步长为0.02时的岭参数值表 K RSQ X1 X2 X3 .00000 .99604

    17、.436166 .179183 .385799.02000 .99584 .351867 .262568 .380494.04000 .99560 .342222 .282832 .363342.06000 .99531 .336854 .291961 .353101.08000 .99497 .332900 .296644 .345962.10000 .99457 .329612 .299105 .340458.12000 .99410 .326701 .300300 .335921.14000 .99357 .324028 .300709 .332010.16000 .99297 .321

    18、521 .300600 .328527.18000 .99231 .319135 .300137 .325355.20000 .99159 .316844 .299420 .322417由上表可以看到,剔除了后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当=0.16时,0.99297仍然很大,因而可以选取=0.16岭参数。然后给定,重新作岭回归,计算结果如下:表3.7: k = 0.16时的岭回归Mult R .9964780RSquare .9929685Adj RSqu .9919137SE 210.6252025:表3.8: 方差分析表 df S

    19、S MS F value Sin FRegress 3.000 125295417 41765139 941.44 .000000Residual 20.000 887259.52 44362.976 表3.9:方程中的变量 B SE(B) Beta B/SE(B)X1 .4110191 .0098800 .3215208 41.6010169X2 .0399873 .0017557 .3006004 22.7755604X3 1.1311326 .0405681 .3285272 27.8823490Constant -451.7066055 69.6480613 .0000000 -6.4

    20、855589得到对对的标准化岭回归方程为: (3.2) (41.601) (22.776) (27.882 )0.993 =941.44普通最小二乘法得到的回归方程为 (3.3) (1.582 ) (1.570) (1.617) ( -0.261)标准化岭回归得到的统计量都比OLS估计显著,因此岭回归得到预期的效果。(三) 主成分分析法同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果:表3.10:总的解释方差表ComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of Varia

    21、nceCumulative %Total% of VarianceCumulative %13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法:第一主成分 (3.4)第二主成分 (3.5

    22、)用对、做普通最小二乘法,得如下回归方程为 (3.6) 因此,可以得出主成分回归方程为 (3.7)回归方程的的修正的可决系数为 0.996。由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。五、结论 主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高

    23、于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。 参考文献1 何晓群.应用回归分析M.中国人民统计大学出版社:2007,(13).2 钱晓莉. 基于特征值的多重共线性处理方法J. 统计与决策:2004,(10).3 白雪梅, 赵松山. 更深入地认识多重共线性J. 东北财经大学学报:2005,(02).4 赵松山, 白雪梅. 关于多重共线性检验方法的研究J. 中国煤炭经济学院学报:2001,(04). 5 高辉. 多重共线性的诊断方

    24、法J. 统计与信息论坛:2003,(01).6 达摩达尔.N.古扎拉蒂.计量经济学M.中国人民大学出版社:2004,(6). 7 薛薇.SPSS统计分析方法及应用M.电子工业出版社:2009,(1).8 秦红兵. 多元回归分析中多重共线性的探讨与实证J. 科技信息:2007,(31).9 柳丽,魏庆钲.回归分析中多重共线性的诊断与处理J.中国卫生统计:1994,(11).10 John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation onEstimates of Parame

    25、tersJ. The Journal of Financial and Quantitative Analysis:1996,(6).11 Mark Z. Fabrycy.Multicollinearity caused by Specification ErrorsJ. Applied Statistics:1975,(4).12 Nityananda sarkar.Mean square error matrix comparision of some estmators in linear regressions with muillinearityJ.Statistics and Probability letters:1996,(10).9


    注意事项

    本文(岭回归解决多重共线性.doc)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开