Dummyvariable.docx
- 文档编号:11561394
- 上传时间:2023-06-01
- 格式:DOCX
- 页数:21
- 大小:204.33KB
Dummyvariable.docx
《Dummyvariable.docx》由会员分享,可在线阅读,更多相关《Dummyvariable.docx(21页珍藏版)》请在冰点文库上搜索。
Dummyvariable
第15章虚拟变量
15.1.虚拟变量
定性描述某种属性变量,如性别,种族,战争等,这种属性常常是有或没有,出现或不出现,因此,度量这种属性常用“1”表示有,0表示“没有”(不出现)。
如性别,男性为1(或0),女性为0(或1),或教育程度用1表示大学毕业,0表示否定,即非大学毕业等。
如:
研究薪金问题;薪水yi,
(人只有2种属性,男和女)
yi=α+βDi++ui
于是:
表明男教授平均薪金为
女教授为
,由此研究薪金是否存在歧视现象.由此还可以看出,虚拟变量的系数表示与基(女教授)的差。
以上的属性为二种,男性和女性。
将属性扩展为多个,如研究不同地区教师的工资差别,将一个国家分为3个地区,引进2个虚拟变量,建立模型
yi=β1+β2D2i+β3D3i+ui(5.1)
模型(5.1)的回归因子全为互斥的虚拟变量,这样的模型称为方差模型分析(ANOVA).
例子:
美国公立学校教师的地区差别。
将美国分为东北(21个州)、南方(17个州)和西部地区(13个州),共3个属性,引进2个虚拟变量D2i和D3i,D2i=1,如第i个州属于东北区,否则D2i=0;D3i=1,如第i个州属于南方区,否则D3i=0.显然这两个虚拟变量互斥。
模型为
yi=β1+β2D2i+β3D3i+ui(5.1)
进一步,有
E(yi∣D2i=1,D3i=0)=β1+β2
即东北区教师的平均工资,而南方区和西部地区教师的平均工资分别为
E(yi∣D2i=0,D3i=1)=β1+β3
E(yi∣D2i=0,D3i=0)=β1
(5.1)的估计结果为:
yi=26158.62-1734.473D2i-3264.615D3i+ei(5.1E)
se=(1128.53)(1435.93)(1499.6)
t=(23.18)(-1.21)(-2.18)R2=0.09
即东北区教师的平均工资:
26158.62-1734.473=24424
南方区教师的平均工资:
26158.62-3264.615=22894
西部地区教师的平均工资:
26158.62
实际平均工资:
东北区为24424.14;南方区为22894;西部区26158.
在虚拟变量的解释和模型设定中,要特别注意下述
1.虚拟变量是为着描述属性,在含截距的模型中,虚拟变量的个数必须比属性或类别的个数少1,否则会造成完全共线!
2.没有附着虚拟变量的截距即β1作为基(base)、或基准(benchmark),或比较基(comparison).
3.截距即β1本身代表基的均值,如上例中为西部区的均值;
4.附着虚拟变量的系数即β2和β3的系数称为级差截距系数,即不同属性的差别。
5.比较是与基相比较.如上例中估计的β2为-1734.473,表示东北区的平均工资比基即西部区少-1734.47,而不是东北区的平均工资为-1734.47。
5.基组的选择完全由研究者自行决定!
6.虚拟变量陷井:
属性或类别个数与虚属变量个数一致,模型无截距,如上例中,3个地区引进3个虚拟变量且模型不含截距,即定义D1i=1,如第i个州属于西区,否则D1i=0,即第i个州不属于西区。
模型为
yi=β0+β1D1i+β2D2i+β3D3i+ui(5.2)
由于D1i+D2i+D3i=1,1看作β0所附着的变量的数据,这是完全共线,(5.2)无法估计,所以(5.2)为虚拟变量陷井。
解决虚拟变量陷井:
去掉β0,即
yi=β1D1i+β2D2i+β3D3i+ui(5.3)
或去掉3个虚拟变量中的任一个。
如
yi=β1+β2D2i+β3D3i+ui
特别注意!
如直接估计(5.3),所得到的估计即为各种属性的均值而不是差异!
如上例,(5.3)的估计为
yi=26158.62D1i+24424.14D2i+22894D3i+ei(5.3E)
se=(1128.53)(887.9)(986.9.6)
t=(23.18)(27.50)(23.2)R2=0.09
将(5.3E)与(5.1E)相比较可知,哪一种引入虚拟变量的方式更好呢?
肯尼迪(Kennedy)指出:
“大多数研究者认为,在一个含有截距的方程中,他们更容易地处理他们通常最感兴趣的问题,是否某个组与基准组有所不同以及有多大的不同,所以在方程中包括截距更加方便。
为了检查分组是否得当,也可通过将虚拟变量的系数相对0做t检验(或者更一般地,对适当的虚拟变量系数集做一个F检验),就可以检验分类是否适当(因为分组的人可能预料在基准组与其它组之间存在统计上的显著差异)。
”
15.2一个定量变量和一个虚拟变量的回归,
将上述模型扩展为含定量变量Xi
yi=β1+β2D2i+β3D3i+β4Xi+ui(5.4)
这里yi表示薪水,Xi表示教龄为定量变量,D为虚拟或两分支变量。
例子:
续前例,(5.4)的估计结果为
DependentVariable:
SALARY
Method:
LeastSquares
Date:
10/05/04Time:
16:
23
Sample:
151
Includedobservations:
51
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
13269.11
1395.056
9.511530
0.0000
D2
-1673.514
801.1703
-2.088837
0.0422
D3
-1144.157
861.1182
-1.328687
0.1904
SPENDING
3.288848
0.317642
10.35393
0.0000
R-squared
0.722665
Meandependentvar
24356.22
AdjustedR-squared
0.704963
S.D.dependentvar
4179.426
S.E.ofregression
2270.152
Akaikeinfocriterion
18.36827
Sumsquaredresid
2.42E+08
Schwarzcriterion
18.51978
Loglikelihood
-464.3908
F-statistic
40.82341
Durbin-Watsonstat
1.414238
Prob(F-statistic)
0.000000
从以上的估计结果可知,教龄增加一年导致工资增加3.29元。
不难看出,虚拟变量的系数(除D3的系数外)显著,由于估计的β4为斜率,所以上述回归结果可以分解为3条斜率相同但截距不同的回归直线。
截距分别为基区即西部的13269.11,南区的12125=13269.11-1144.2,东北区的11595=13269.11-1673.5。
15.3对一个定量变量和一个多分定性变量的回归;
教育程度不同对收入的影响,研究3种教育程度收入的影响,受教育程度为一个多分支变量,即高中、大学(专科)、本科。
为此引进2个虚拟变量
注,
非高中毕业可能仅受过初中教育或更低,
没受过大学教育,可能是社区(专科)毕业等
模型为
yi=
+
2D2i+
3D3i+
xi+ui
由
表明不同的教育程度,对保健品的平均支出的条件期望不同。
15.4.对一个定量变量和两个以上的虚拟或定性变量的回归(续)
以上是一个定量变量对一个多分支变量的回归,现在引入两个定性变量(虚拟变量),仍以教授工资研究为例
定义虚拟变量
这是两个不同属性的2分支变量:
性别,肤色,且性别和肤色的属性会完全不同。
设定模型:
yi=α1+α2D2i+α3D3i+βxi+ui
yi为工资,Xi教龄,不难看出,这一模型是为着研究种族歧视是否显著。
基为黑人女性(D2i=0D3i=0)的平均工资α1.
由E(ui)=0,则有黑人女教授的平均工资与教龄的关系(简称为平均工资)
E(yi︱D2i=0D3i=0)=α1+βxi
而黑人男教授平均工资与教龄的关系龄为
E(yi︱D2i=1,D3i=0)=(α1+α2)+βxi
白人女教授的平均工资与教龄的关系龄为
E(yi︱D2i=0,D3i=1)=(α1+α3)+βxi
白人男教授平均薪金与教龄的关系龄为
E(yi︱D2i=1,D3i=1)=(α1+α2+α3)+βxi
注记:
回归系数:
保持其他变量不变,
表示x增加一个单位,对y的效应,即偏回归系数,保持不变,这里即为D2=D3=1(或等于0).
15.6:
(利用虚拟变量)检验模型的结构稳定性
上述例子所研究的均是截距的差异(不同属性)。
问题:
斜率是否有显著差异?
回忆CHOW检验,若检验结论表明具有显著结构变化,但不能确认是截距还是斜率发生了变化。
利用虚拟变量可以检验斜率是否发生了变化。
我们前面的例子研究的是美国高失业率是否改变了个人储蓄行为,续前例。
例子:
续前例,美国高失业率与储蓄行为。
全样本1970-1995
样本Ⅰ:
1970-1981,达到最高失业率之前;
样本Ⅱ:
1982-1995,达到最高失业率之后。
问题:
两个时期的结构(系数)是否发生变化以及是否是斜率发生了变化。
为此,设定不同时期的模型为
样本Ⅰ:
yi=λ1+λ2xi+u1i
i=1,2,…n1(1981)
样本Ⅱ:
yi=γ1+γ2xi+u2i
i=n1(1981)+1,…n(1995)
y表示储蓄,x表示收入,n1
n2
若①λ1=γ1,λ2=γ2,重合回归(coincident),即无结构变化。
②λ1≠γ1,λ2=γ2,两个时期的回归仅在截距上(即位置上)不同,故称为平行回归(即ParallelRegressions)
③λ1=γ1,λ2≠γ2,,两个时期的截距相同但斜率不同,称汇合(concurrent)回归
④λ1≠γ1,λ2≠γ2两个回归完全不同,称为相异(dissimilar)回归:
图1.重合回归、平行回归、、汇合回归和相异回归
结构性变化是指参数(截距和斜率)在两个时期发生了变化,但检验这种结构变化是通过统计推断来产生是否发生变化)而非直观比较.引入虚拟变量:
模型y=α1+α2Dt+β1Xt+β2(DtXt)+ut(5.5)
i=1970,…n1(=1981),n1+1…n2(=1995)
由E(ui)=0,有
即对应第Ⅱ组数据的期望;
即对应第Ⅰ组的期望.
使用前述符号,应有
,
。
α1+α2Dt为引入虚拟变量后截距的相加形式,α2为级差截距;(DtXt)称为Dt与Xt的交互或相乘形式,
2为级差斜率系数,即Ⅰ和Ⅱ期斜率系数的差,也称为斜率是否变化的驱动器.
对于所有的数据(Ⅰ和Ⅱ),虚拟变量将数据分划如下:
对应这样的数据,有(5.5)的估计
DependentVariable:
SAVINGS
Method:
LeastSquares
Date:
10/06/04Time:
09:
41
Sample:
19701995
Includedobservations:
26
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
1.016117
20.16483
0.050391
0.9603
DUM
152.4786
33.08237
4.609058
0.0001
INCOME
0.080332
0.014497
5.541347
0.0000
INCOME*DUM
-0.065469
0.015982
-4.096340
0.0005
R-squared
0.881944
Meandependentvar
162.0885
AdjustedR-squared
0.865846
S.D.dependentvar
63.20446
S.E.ofregression
23.14996
Akaikeinfocriterion
9.262501
Sumsquaredresid
11790.25
Schwarzcriterion
9.456055
Loglikelihood
-116.4125
F-statistic
54.78413
Durbin-Watsonstat
1.648454
Prob(F-statistic)
0.000000
y=1.02+152.48Dt+0.08Xt-0.065(DtXt)+et(5.6)
se=(20.16)(33.08)(0.0144)(0.016)
t=(0.05)(4.61)(5.54)(-4.1)
R2=0.88
上述回归结果表明:
截距和斜率均发生显著变化,即相异回归.这一结果可导出两个时期即两个子样本的回归
样本1:
y=1.02+0.08Xt+e1t
样本2:
y=(1.02+152.48)+(0.08-0.0655)Xt+e2t
上述虚拟变量的回归结果与CHOW检验相比较,具有如下优势:
1.(5.6)仅需作一次回归;
2.基于(5.6)即虚拟变量的回归结果可以实现很多假设检验,如检验α2=0、β2=0和α2=β2=0等,由此可推断截距和斜率是否发生变化。
3.CHOW检验不能确认是哪一个参数发生变化,虚拟变量回归则可以回答这个问题。
4.虚拟变量回归由于将所有样本用于一个回归模型(CHOW则需分别进行回归),从而增加了自由度,提高了参数估计量的相对(与CHOW的分别回归相比较)精度,但多引入一个虚拟变量,将减少一个自由度。
总结:
1.引入虚拟变量(不同时期)并设定含虚拟变量的模型并对此进行回归。
2.基于估计对虚拟变量的参数进行检验,由此推断结构是否发生变化。
3.比较2个回归:
Dt=0和Dt=1分别表示两个回归。
Chow检验(结构稳定性)检验(复习)
Ⅰ:
,t=1~n1
Ⅱ:
,
合并全样本(Ⅰ+Ⅱ)
假定①u1t~N(0,
),u2t~N(0,
)②E(u1ty2t)=0
步骤1.利用全样本对模型进行OLS,得到RSS(≡S1),自由度为(n1+n2-k),k为模型参数个数,含截距在内;
2.利用Ⅰ和Ⅱ分别作OLS,得到RSS3和RSS2,其自由度分别为n1-k1(=k),n2-k2(=k)
3.计算S5=RSS1–(RSS2+RSS3)
4.
H0;无结构变化,HA;任一参数(这是为斜率和截距)具有结构变化。
若计算的F>F
,拒绝H0;即表明具有结构变化,F ,接受H0,无结构变化。 15.9.运用虚拟变量反映交互作用效应 (1).模型及其解释 考虑如下模型 yi=α1+α2D2i+α3D3i+βxi+ui(5.7) yi=每小时工资;xi=受教育年限;D2i=1,如第i个人为女人;否则D2i=0; D3i=1(性别虚拟变量),如果第i个人不是白人也不是西班牙人(有色),否则D3i=0(即无色)(种族虚拟变量). 对于模型(5.7),种族和性别为定性(虚拟)变量,工资和受教育年限为定量变量.这一模型的基(D2i=D3i=0)为白人和西班牙人男性的平均工资(忽视βxi),这一模型所隐含的假设为: 不同的种族之间,D2i所反映的性别差别相同;不同性别之间,由D3i所反映的种族差别相同,也就是说,如果男性工资大于女性工资,则无论种族是白人还是非白人,是西班牙人还是华人或其它人种,男性工资总是大于女性工资,即存在性别歧视.在很多研究中,这样的假设不能成立,也就是说,不同的种族之间,工资的性别差异也是存在的,不是白色人种也不是西班牙人种的女人的平均工资低于男人的平均工资;同一种族也存在性别差异,白人女性的工资可能高于所有非白色人种和非西班牙人种的平均工资。 模型(5.7)不能反映这样的差别。 换言之,在两个虚拟变量D2i和D3i之间存在交叉效应,即用这两个虚拟变量相乘,而不是如同(5.7)一样简单相加,反映这种交叉效应的模型为 yi=α1+α2D2i+α3D3i+α4(D2iD3i)+βxi+ui(5.8) 由(5.8),不是白色人种也不是西班牙人种(简称有色人种)的女性的平均工资函数为 E(yi∣D2i=1,D3i=1,xi)=(α1+α2+α3+α4)+βxi(5.9) 不难看出: α2度量女性工人的每小时工资(与无色男性比较的)差别,简称为性别差异; α3度量有色人种工人的工资差别即种族差异; α4度量有色女性工人平均工资的交叉效应; α1为基即白人和西班牙人种族(无色人)男性工人的工资的一部分(忘视了βxi),一般只具有比较的意义. α2+α3+α4度量有色女性工人平均工资与基(白人和西班牙(无色)男性工人的工资)的差异. 所以模型(5.9)反映了不同人种和不同性别之间的交叉效应. (2).对交互作用的显著性检验 1.对(5.8)进行OLS; 2.对估计的 4进行显著性检验. 例子: 用美国的数据(采集于1998年3月),估计的(5.7)为 yi=-0.261-2.36D2i-1.73D3i+0.8028xi+ei(5.7E) t=(-0.236)(-5.49)(-2.18)(9.91) R2=0.203n=328 解释: 在受教育程度相同的条件下,女性工人平均每小时工资(与基即无色男性工人比较)低2.36,有色种族工人的每小时工资(与基比较)低-1.73.截距的估计为-0.261没有意义,因为样本中没有xi=0的样本点.但在受教育程度相同的条件(如xi=1)下,无色男性工人(D2i=D3i=0)即基的每小时工资为-0.261+0.8028,而有色女性工人(D2i=D3i=1)每小时平均工资为-0.261-2.36-1.73+0.8028,无色女性工人(D2i=1,D3i=0)每小时平均工资为-0.261-2.36+0.8028. 另一方面,估计的(5.8)为 yi=-0.261-2.36D2i-1.73D3i+2.13(D2iD3i)+0.8028xi+ei(5.8E) t=(-0.236)(-5.49)(-2.18)(1.74)(9.91) R2=0.203n=328 解释: 在受教育程度相同的条件下,由α2+α3+α4=-2.36-1.73+2.13=-1.96,即有色女性工人每小时平均工资比基(无色男性)的平均工资低1.96,即不同性别(男和女)和不同人种(有色和无色)之间的差异. 以上关于虚拟变量的模型设定和解释是针对于两种属性(性别和种族)共4个类别(男女和有色和无色)而进行的.类似地,对于性别属性(男女)和婚姻状况属性(已婚和单身)亦可进行类似的研究.有兴趣者可参阅Wooldridge所著的计量经济学. 15.10.虚拟变量在季节分析中的作用 1.对一个时间序列数据中去掉季节成份,称为对这个时序数据进行季节调整,或退化(deseasonalization)时间序列数据中的季节成份.为什么要进行季节调整,去掉时间序列中的季节成份,用于研究不受季节影响的趋势成份.这里使用虚拟变量法退化时间序列数据中的季节成份. 例子.销售和利润(中国在第Ⅳ季度呈现出季节效应),本例第Ⅱ季度可能呈现出季节效应. Yt=α1+α2D2t+α3D3i+α4D4t+βxt+ut 注记: 一年有4季,某一个数据只属于这4季节中的一个,故属性有4,引进虚拟变量个数为3。 上述模型中,季节性级差效应反映在 、 、 ,可能这3个系数均显著,表明每个季度均有季节效应,或只是其中部分或个别级差系数显著,则对应显著的系数(如 )的季度具有季节效应,这里第Ⅰ季度为基。 估计结果: 结果表明: =1322.89,t=2.07在5%水平上显著,其余的不显著。 结论: 第二季度具有季节效应,在考虑季节效应后,如销售额增加1美分,这一增加值导致利润增加约4美分。 基底(第Ⅰ季度)的平均利润为6688.4,在第Ⅱ季度提高了约1323美元,使之达到8011=6688+1323 这样,第Ⅰ季度: . 第Ⅱ季度; 例子.美国冰箱销售(Y)的季节性.数据如图所示,图形显示出季节性. 定义虚拟变量D2,D3,D4和(或)D1, 1.退化季节效应.建立模型 Yt=α1+α2D2t+α3D3t+α4D4t+ut(5.9) 或Yt=α1D1t+α2D2t+α3D3i+α4D4t+ut(5.10) 估计结果: DependentVariable: FRIG Method: LeastSquares Date: 10/07/04Time: 10: 38 Sample: 132 Includedobservations: 32 Variable Coefficient Std.Error t-Statistic Prob. C 1222.125 59.99041 20.37200 0.0000 D2 245.3750 84.83926 2.892234 0.0073 D3 347.6250 84.83926 4.097454 0.0003 D4 -62.12500 84.83926 -0.732267 0.4701 R-squared 0.531797 Meandependentvar 1354.844 AdjustedR-squared 0.481632 S.D.dependentvar 235.6719 S.E.ofregression 169.6785 Akaikeinfocriterion 13.22216 Sumsquaredresid 806142.4 Schwarzcriterion 13.40537 估计的Y为 =1222.13+245.38D2t+347.63D3i-62.13D4t 或估计(5.10) DependentVariable: FRIG(Y) Method: LeastSquares Date: 10/07/04Time: 10: 40 Sample: 132 Includedobservations: 32 Variable Coefficient Std.Error t-Statistic Prob. D1 1222.125 59.99041 20.37200 0.0000 D2 1467.500 59.99041 24.46224 0.0000 D3 1569.750 59.99041 26.16668 0.0000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Dummyvariable