分享第四讲多重共线性.docx

资源ID：1728811 资源大小：228.86KB 全文页数：24页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

分享第四讲多重共线性.docx

1、分享第四讲多重共线性第五讲多重共线性本讲分为两个部分：第一部分是对相关性问题的研究，作为多重共线性问题的基础，第二部分则是对多重共线性问题展开讨论。第一部分：相关理论1相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。1.1 相关的定义与分类定义：相关（correlation）指两个或两个以上变量间相互关系的程度或强度。分类：按强度分完全相关：变量间存在函数关系。例，圆的周长，L = 2r。高度相关（强相关）：变量间近似存在函数关系。例，我国家庭收入与支出的关系。弱相关：变量间有关系

2、但不明显。例，近年来我国耕种面积与产量。零相关：变量间不存在任何关系。例，某班学生的学习成绩与年龄。完全相关高度相关、线性相关、正相关弱相关按变量个数分按形式分：线性相关, 非线性相关简单相关：指两个变量间相关按符号分：正相关, 负相关, 零相关复相关（多重相关和偏相关）：指三个或三个以上变量间的相关。非线性相关负相关零相关因非线性相关可以转化为线性相关处理，而复相关又可看作是简单相关基础上的拓展，所以后面重点介绍简单线性相关。1.2 简单线性相关的度量用简单线性相关系数，简称相关系数（correlation coefficient）度量两个变量间的线性相关强度，用表

3、示。的随机变量表达式是 =。的统计表达式是 = 其中T，总体容量；xt, yt，变量的观测值； x, y，变量观测值的均值。下面解释为什么能对变量间的线性相关强度进行定量度量。因为表达式的分子是协方差，Cov (xt , yt)；分母是xi和yt的标准差之积。而xt和yt的标准差不会为零，所以Cov (xt , yt) 是否为零，就决定了是否为零，即标志着变量xt, yt间是否存在线性相关关系。但Cov(xt , yt) 有两个缺点：它是一个有量纲的量，取值容易受测量单位的影响；取值范围宽，相关性越强，Cov(xt , yt) 取值越大。为克服上述缺点，用xt, yt的标准差除Cov

4、(xt , yt)，于是就得到相关系数的统计表达式。它是一个无量纲量。相关系数是对总体而言。当研究某个问题时，所得数据常是一个样本。对样本来说，相关系数常用r表示，即r是总体相关系数的估计值。r = = 其中T，样本容量；xt, yt，变量的观测值；,，变量观测值的均值。 11.3 相关系数的取值范围(1)当两个变量严格服从线性关系时, = 1。证：设直线斜率为k，即y = a + k x。则有 = 1(2)当两个变量不存在线性关系时， = 0。(3)上述是两种极端情形，所以相关系数的取值范围是 -1，1。当Cov (xt , yt) 0时，则 0 (正相关)；当Cov (xt ,

5、yt) 0时，则 r (T-2) （临界值），则xt和yt相关；若 r t (T-2) ，则xt和yt相关；若 t r ( f ) = , 其中表示显著性水平， f 表示自由度，r ( f ) 为临界值。1.6 偏相关系数以上介绍了简单线性相关系数，但是当两个变量xt, yt同时受其它变量z1t, z2t, , 影响时，有必要研究当控制其它变量z1t, z2t, , 不变时，该两个变量xt, yt之间的相关关系。称这种相关关系为偏相关关系。以3个变量xt, yt, zt,为例（多于3个变量的情形与此相似。），假定控制zt不变，测度xt, yt偏相关关系的偏相关系数定义如下。= 控制zt不

6、变条件下的xt, yt的简单相关系数。因为zt也是随机变量，一般不容易得到控制zt为一个常数条件下的xt和yt的值。实际计算方法是，从xt, yt中分别剔除zt的影响，然后计算相关系数。步骤如下：（1）求xt对zt的回归估计式，xt = +zt +计算残差，= xt - -zt中不再含有zt对xt的影响。（2）求yt对zt的回归估计式，yt =+zt +计算残差，= yt -zt中不再含有zt对yt的影响。则与的简单相关系数就是xt与yt在剔除zt的影响后的偏相关系数，即 = 例2 中央支出与地方支出的偏相关系数obs财政收入（INCOME）中央支出（X1）地方支出（X2）19811089.5

7、602.2512.819821124575.1578.219831249642.5649.919841501.9738.7807.719851866.4836.51008.219862260.3962.31368.619872368.91031.91416.6198826281060.41646.2198929471105.2193519903312.61372.82079.419913610.91517.72295.819924153.11817.92571.819935088.21957.23330.2 r = 0.9898 r = 0.9984 x1 = 170.90 + 0.3614

8、income + RES1 x2 = -221.49 + 0.6952 income + RES2 (3.9) (23.1) (-6.6) (58.6) r = 0.99 r = -0.85相关系数的EViews操作。打开数据窗口。选View/Correlation得相关系数矩阵如下。第二部分：多重共线性“多重共线性”一词由R. Frisch 1934年提出，它原指模型的解释变量间存在线性关系。1非多重共线性假定rk (X X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 rxi xj 1, rxi xj 不近似等于1。就模型中解释变量的关系而言，有三种可能

9、。（1）rxi xj = 0，解释变量间毫无线性关系，变量间相互正交。这时已不需要多重回归，每个参数 j都可以通过y对xj的一元回归来估计。（2） rxi xj = 1，解释变量间完全共线性。此时模型参数将无法确定。直观地看，当两变量按同一方式变化时，要区别每个解释变量对被解释变量的影响程度就非常困难。（3）0 rxi xj R2，则xi，xj间的多重共线性是有害的。（3）此外还有其他一些检验方法，如主成分分析法等，很复杂。 5多重共线性的克服方法5.1 直接合并解释变量当模型中存在多重共线性时，在不失去实际意义的前提下，可以把有关的解释变量直接合并，从而降低或消除多重共线性。如果研究

10、的目的是预测全国货运量，那么可以把重工业总产值和轻工业总产值合并为工业总产值，从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并，变为工农业总产值。解释变量变成了一个，自然消除了多重共线性。 5.2 利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解，对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型yt = 0+ 1 xt1 + 2 xt2 + ut (7.20)x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究，能给出回归系数 1与 2的某种关系，例如 2 = 1 (7.21)其中为常数。把上式代入

11、模型（7.20），得yt = 0+ 1 xt1 + 1 xt2 + ut = 0 + 1 (xt1 + xt2) + ut (7.22)令 xt = xt1 + xt2得 yt = 0+ 1 xt + ut (7.23)模型（7.23）是一元线性回归模型，所以不再有多重共线性问题。用普通最小二乘法估计模型（7.23），得到，然后再利用（7.21）式求出。下面以道格拉斯（Douglass）生产函数为例，做进一步说明。 Yt = K Lt Ct eut (7.24)其中Yt表示产出量，Lt表示劳动力投入量，Ct表示资本投入量。两侧取自然对数后， LnYt = LnKt + LnLt + LnCt

12、+ ut (7.25)因为劳动力（Lt）与资本（Ct）常常是高度相关的，所以LnLt与LnCt也高度相关，致使无法求出，的精确估计值。假如已知所研究的对象属于规模报酬不变型，即得到一个条件 + = 1利用这一关系把模型（7.25）变为 LnYt = LnKt + LnLt + (1- ) LnCt + ut 整理后， Ln () = Ln Kt + Ln () + ut (7.26)变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模型，自然消除了多重共线性。估计出后，再利用关系式 + = 1，估计。 5.3 增加样本容量或重新抽取样本这种方法主要适用于那些由测量误

13、差而引起的多重共线性。当重新抽取样本时，克服了测量误差，自然也消除了多重共线性。另外，增加样本容量也可以减弱多重共线性的程度。 5.4 合并截面数据与时间序列数据这种方法属于约束最小二乘法（RLS）。其基本思想是，先由截面数据求出一个或多个回归系数的估计值，再把它们代入原模型中，通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量，然后建立新因变量对那些保留解释变量的回归模型，并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量模型如下， Ln Yt = 0+ 1 Ln Pt + 2 Ln It + ut (7.29)其中Yt 表示销售量，Pt表示

14、平均价格，It表示消费者收入，下标t表示时间。在时间序列数据中，价格Pt与收入It一般高度相关，所以当用普通最小二乘法估计模型（7.29）的回归系数时，会遇到多重共线性问题。首先利用截面数据估计收入弹性系数 2。因为在截面数据中，平均价格是一个常量，所以不存在对 1的估计问题。把用截面数据得到的收入弹性系数估计值代入原模型（7.29）。得 LnYt = 0+ 1 Ln Pt +Ln It + ut移项整理 LnYt -Ln It = 0+ 1 LnPt + ut变换后的因变量（LnYt -Ln It）用Zt表示，则 Zt = 0+ 1 LnPt + ut (7.30)这时已排除收入变量的影响。

15、模型已变换为一元线性回归模型。利用时间序列数据对模型（7.30）作普通最小二乘（OLS）估计，求出,。这样便求到相对于模型（7.29）的估计式， =+Ln Pt +Ln It其中是用截面数据估计的，,是由时间序列数据估计的。由于把估计过程分作两步，从而避免了多重共线性问题。显然这种估计方法默认了一种假设，即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时，这种估计方法会带来估计误差。5.5逐步回归法（1）用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。（2）以对被解释变量贡献最大的解释变量所对应的回归

16、方程为基础，按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。若新变量的引入改进了R2，且回归参数的t检验在统计上也是显著的，则该变量在模型中予以保留。若新变量的引入未能改进R2，且对其他回归参数估计值的t检验也未带来什么影响，则认为该变量是多余的，应该舍弃。若新变量的引入未能改进R2，且显著地影响了其他回归参数估计值的符号与数值，同时本身的回归参数也通不过t检验，这说明出现了严重的多重共线性。舍弃该变量。案例1：关于中国电信业务总量的计量经济模型（file:coline2）经初步分析，认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的

17、比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下， Ln y = 24.94 + 2.16 x1 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5 (0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2) R2 = 0.99, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18,R2 = 0.99，而每个回归参数的t检验在统计上都不显著，这说明模型中存在严重的多重共线性。表1 变量 y，x1，x2，x3，x4，x5的数据年电信业务总量y

18、邮政业务总量x1中国人口数x2市镇人口比重x3人均GDPx4人均消费水平x519911.51630.527511.58230.26371.8790.89619922.26570.636711.71710.27632.2871.07019933.82450.802611.85170.28142.9391.33119945.92300.958911.98500.28623.9231.74619958.75511.133412.11210.29044.8542.236199612.08751.332912.23890.29375.5762.641199712.68951.443412.36260.2

19、9926.0532.834199822.64941.662812.48100.30406.3072.972199931.32381.984412.59090.30896.5343.143 资料来源：中国统计年鉴2000下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R 2 = 0.9944，所以根据Klein判别法，模型中存在严重的多重共线性。Ln(y)X1X2X3X4X5Ln(y)1.0000x10.98331.0000x20.99380.98951.0000x30.98750.97000.98821.0000x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.0000 用逐步回归法筛选解释变量。（1）用每个解释变量分别对被解释变量做简单回归，以可决系数为标准确定解释变量的重要程度，为解释变量排序。 Ln y = - 0.34 + 206 x1 (- 2.1) (14.

注意事项

本文（分享第四讲多重共线性.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。