对同样的数据做变换加权最小二乘估计,市面上流行的不同软件的拟合优度检验却差别很人,SPSS软件计算出的F=442.2,7?
2=0.968:
Excel软件计算出的F=74.26.7?
2=0.837o对其他数值就不逐•对比了。
表1(a)普通最小二乘方差分析表(SPSS)
平方和
1844010
1778202
自由均方
]184401
2961317
F显著性F
300.77.53E-~~0^1
■r
2021831
30
表1(b)乘
加权最小二乘方差分析表(SPSS)
平方和自山均方
显著
6.6
0.4
29
6655423.77.51E-0?
93
■cZ*
0.015
30
表1(C变换加权最小二乘方差分析表(SPSS)
来
平方和
自由均方F
L二■■
显著性
0
13.8
°6.945
1.88E-
0.96
取
%•
总
Z%■
0.455
14.3
AW
20.0157
C
3
1
表1(d)变换加权最小二乘方差分析表(Excel)
来
平方和
自由
均方F
显著性
0
2332
2
1.166
6.39E-
0.83
莪
0.4554
29
0.0157
2.788
31
针对上述问题,变换加权最小二乘法实际上常用于式(5)成立的情况,即心此时
变换后的自变量X;三1,回归参数0)就相当于回归常数项了,对变换后的数据就可以用含有常数项的普通最小二乘估计方法,各种统计软件对变换加权最小二乘法回归的拟合优度检验的输岀结果就都•致了。
遗憾的是,即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不•致,这只需仔细比较两种情况的总离差平方和公式J(屮・D2和
Z-1
£叱(兀-几〉2的差异即可。
Z-I
这种通过变换变量求解加权最小二乘估计方法的作用是什么呢?
引用文献[1]第180页的•段文字给予解释:
“许多回归软件包允许用户有选择地使用具体的权数进行•加权最小二乘分析。
如果不能选择,通过对观察值的具体变换,使用不加权的最小二乘法,仍能得到加权最小二乘估计量。
”
可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的•种计算手段而存在的,如果你使用的软件仅具有普通最小二乘功能,就只能用变换变虽的方法求解加权最小二乘的参数估计。
《应用回归分析》教材是结合SPSS软件编写的,而SPSS软件允许用户自接使用权数进行加权最小二乘分析,不必通过变换变量的方法求解加权最小二乘估计,因此我们在教材中没有给出这种通过变换变虽求解加权最小二乘估计的方法。
纵上所述,在拥有像SPSS这种能够直接计算加权最小二乘估计的软件时,就不必使用变换变量求解加权最小二乘估计的方法了。
即使使用的是变换变量求解加权最小二乘估计的力法,也应该把式(9)变换回式(3)的形式,用来宣接农示岀原始变量之间的关系。
因此《孙文》把式(9)称为加权最小二乘法的经验回归方程就显然不合适了。
我们也没有见到其他的文献用这个称法。
三、三类残差图的作用
以残差为纵坐标轴以自变量(或回归值$)为横坐标轴画的散点图就是残差图。
《孙文》中的三类残差图如下:
1.普通残差图。
指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差e.所做的残差图,也就是《孙文》中所称的第•类残差图。
2.加权普通残差图。
其残差是用原始数据做加权最小二乘估计所得的普通残差e”(在
《孙文》中记做e:
),也就是《孙文》中所称的加权派生残差图,或第三类残差图。
3•加权变换残差图。
其残差是用变换数据做加权最小二乘估计所得的普通残差e:
(在
《孙文》中记做e“),也就是《孙文》中所称的加权残差图,或第二类残差图。
e:
的计算
方法有两种,第•种方法是用式(9)的变换加权最小二乘法得到,第二种方法是把加权普
—m
通残差乘以4w=Xjz得到,即e'・=e.-4w-e・-Xj'o
拙作《应用回归分析》•书中重点讲述的是普通残差图的作用,可以从直观上判断回归模型是否存在异方差性,还可以进•步用普通残差的绝对值与自变虽计算等级相关系数,做相关性检验来判断是否存在异方差性。
在教材正文中对加权残差图只是给出了软件绘制的方法和图形,并没有对图形结果做任何文字说明和评价。
山于考虑有些初学者可能会产生误
解,我们在教材第121页“本章小结与评注”中对加权残差图做了简要解释,引述如下:
“从残差图来看,普通最小二乘估计只能照顾到残差大的项,而小残差项往往有整体的正偏或负偏。
加权最小二乘估计的残差图,对人残差和小残差拟合的都好,人残差和小残差都没有整体的正偏或负偏。
”
以上这段文字指出了加权残差图的作用,如果在普通残差图中小残差有整体的正偏或负偏,而在加权普通残差图中得到明显的改善,这就说明加权最小二乘估计是显著有效的。
两种残差图在《应用回归分析》和《孙文》中都已给出,本文就不重复绘制图形了,而是把三种残差的具体数值列在衣2中,说明加权普通残差的作用。
三种残差的数值
序号
y
■
W
9
giw
2
1.2161E-
0
16
0.23
1
64
8777
9
211
3
1
1.1314E-
0
1
0.01
尸
05
9210
-27
4
5
1.0069E-
-
■
<
■
90
9954
0
■
10气
-66
0.066
L
1
31
1050
8
9.2837E-
0
*7
11
1
-74
0.071
s
1
22
1097
9
8.6927E-
0
*7
15
Q
124
■
0.116
6
1
07
1191
2
7.6917E-
0
r
25q
221
■
0.194
4
1274
6.9485E-
0
0.00
■
06
7
r
-25
4
4
5
1349
6.3760E-
0
0.02
S
03
9
r
8
35
8
C
4
31
1426
9
5.8669E-
0
r
12
9
105
0.080
1
5
1552
5.1710E-
0
■
0
88
2
r
-78
-58
0.042
8
1673
4.6212E-
0
13
0.09
11
98
0
0
146
9
1
9
1766
4.2599E-
0
10
0.07
2
50
3
r
3
116
6
3
1
7
79
1857
5
3.9501E-
0
r
14
6
135
0.085
4
1
8
19
1963
5
3.6346E-
0
19气
188
■
0.114
1
122
2116
3.2481E-
0
0.04
5
2
3
78
80
6
1
170
2288
2.8895E-
0
41
0.22
6
2
0
3
409
0
2.6684E-0
1
157
2412
7
18
176
0.091
7
8
7
2.4408E-
3
1
165
2560
7
13
1
8
4
4
2.3181E-
4
122
0.060
1
140
2650
7
-
-
•
9
0
0
2.1726E-
19
211
0」02
5
2
182
2767
7
13
115
0.054
0
9
0
2.1OO5E-
4
2
220
2830
7
45
431
0」97
1
0
0
2.2012E-
2
2
201
2743
7
34
324
0」
2
7
0
1.9676E-
3
52
2
210
2956
7
25
225
3
5
0
2.1173E-
0
0.100
2
160
2815
7
-
-
-
4
0
0
1.7388E-
13
156
0.072
气
2
225
3210
7
12
147
5
0
0
1.7068E-
IO
0
0.061
2
242
3250
7
31
0.11
6
0
0
1.5110E-
7
281
6
2
257
3525
7
23
190
0.074
7
0
0
1.6309E-
4
2
172
3350
7
-
-
-
8
0
0
1.4640E-
46
507
0.205
X
2
190
3600
7
-
-
-
9
0
0
1.4519E-
50
546
0.209
0
3
210
3620
7
-
-
-
0
0
0
1.3394E-
31
364
0」39
7
3
230
3820
7
-
-
-
1
c
c
C4C
CI4
这个例「共有31对数据,把数据分为3组,第1-10对数据为第】组,是小方差组:
11-21对数据为第2组,是中等方差组;22-31对数据为第3组,是大方差组。
从衣中看到,第I组10个普通残差e:
中有8个是负值,说明普通残差图中小残差有整体的负偏。
而10个加权残差弓”中只有6个是负值,说明加权残差对小残差整体负偏的情况已经有了明显改进。
10个普通残差中绝对值最人的是e6=-253,加权回归后改善为e6”=
-2210图形是对数值的自观展示,从两张残差图上也是可以看出相同现象的。
第3组10个普通残差e:
和加权残差弓”的正负性相同,正负值各有5个,说明普通最
小二乘和加权最小二乘对人残差项拟合的都好。
仔细观察这组的两种残差还是能发现区别的,
10个普通残差中绝对值最人的是e29=-500.加权回归后成为5=-546。
不是像小残差组那样得到改善,而是误差变得更人。
其道理也很简单,加权最小二乘估计照顾小残差项是以牺牲人残差项为代价的,有得必有失,也是有局限性的。
《孙文》中认为加权残差图存在•定的局限性,具体农现在:
“第这类残差图不能用来检验模型是否存在异方差问题。
第二,这类残差图也不能用来说明模型中的异方差问题是否得到妥善处理。
”
关于第-点,准确地说是不必用加权残差图检验模型是否存在异方差问题,并非不能用,这是因为检验模型是否存在异方差问题的匚作已经由普通残差图完成。
实际上用加权普通残差图检验异方差的效果是优于普通残差图的,这是因为存在异方差时普通残差对误差的估计是失真的,而加权残差则能够更真实地反映误差项的大小。
关于第二点,如果从加权残差图中看到小残差项已经没有整体的正偏或负偏,则说明加权最小二乘估计已经消除了异方差的影响。
《孙文》中捉出的加权变换残差图(第二类残差图)是有其长处的,可以比加权普通残差图(第三类残差图)更直观地看出加权最小二乘估计是否真正解决了异方差问题,这只要看看残差图中散点在左右两端分布得是否平齐即可。
还可以由加权变换残差e:
”用等级相关系数法做检验,判断异方差是否真正得以消除,这个作用是加权普通残差弓”不具备的。
这两个作用在《孙文》中已经详细介绍。
顺便指出《孙文》以加权变换残差e:
“为纵轴,分别以两个变换后的自变量X:
=X*75和X:
=*25为横轴绘制岀两张残差图是不必要的,实际上这两张残差图是等价的,从图形上看只是左右颠倒。
加权变换残差e:
“的数值是对原始数据的残差做了变换,其数值人小只具有相对意义。
加权普通残差勺”是原始数据的残差,其数值大小具有绝对意义,它综合了普通残差和加权变换残差的部分功能,当然同时也丧失了部分功能。
《孙文》中讲述了用变换加权最小二乘法计算加权变换残差e:
"的方法。
实际上,在用SPSS软件计算出权数VV.和加权普通残差勺”后,只须根据关系e:
"=何•弓”就可以计算出加权变换残差e:
”,而不必用变换加权最小二乘方法。
拙作《应用回归分析》在正文中对加权变换残差图完全没有提及,不过“本章小结与评注”中的•句话“如果把谋差项加权,那么加权的误差项応•刍是等方差的”,可以看作是对加权变换残差e:
“的诠释。
拙作《应用回归分析》关于加权普通残差图的内容是这样讲述的:
“为了洒残差图,需要计算出加权最小二乘估计的残差勺”,这需要重新做回归。
第•步,在WeightEstimation对话框的Options选项中,保存最优权作为新的变虽。
第二步,进入线性回归对话框,点选左下角的WLS.线性回归对话框会增加•行Weight变量框,把在第•步保存的最优权变量选入。
第三步,点选线性回归对话框的Save选项,保存残差变量,运行。
第四步,以自变虽x为横轴,以加权最小二乘估计的残差弓”为纵轴画残差图”
这段内容的直接作用是介绍加权普通残差图的绘制方法,其间接作用是介绍SPSS软件加权最小二乘估计功能的使用方法,也就是“第二步”的内容。
在SPSS软件中,加权最小二乘回归具有普通最小二乘回归的很多功能,包扌舌共线性诊断、异常值判定、自相关分析、区间预测等等,这些功能都是以“第二步”的内容为基础的,计算残差只是众多功能之•而已。
用图形来评价结果往往只是•种粗糙的辅助手段。
正像我们在拙作《应用回归分析》第121页“本章小结与评注”上强调指出:
“关于异方差性的诊断,方法很多,至于哪种检验方法最好,目前还没有•致的看法。
残差图方法岂观但较粗糙。
等级相关系数检验要比残差图检验方法更为可取。
”
四、对异方差问题的深入思考
拙作《应用回归分析》教材定位于统计学专业的本科生或非统计学专业的硕士生,作为3学分54学时的课程教材,限制篇幅和深度,教材中对•些问题不可能全而展开叙述,在此对异方差的一些问题再做进-步探讨。
当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程,或者•定有人幅度的改进。
对本例的数据,普通最小二乘的经验回归方程是y=-64&1+0.0847%.加权最小二乘的经验回归方程是九=-719.1+0.0879%,两者相差不人。
比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。
看来需要强调指出的是这个改进幅度不是指0,辭丘弋皿是否变为等方差了,而是指回归方程也就是回归系数估计值的差异幅度,在这•问题上加权普通残差图是优于加权变换残差图的。
实际上,可以构造出这样的数据,回归模型存在很强的异方差,加权回归后e'变为等方差了,但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。
加权最小二乘以牺牲人方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研丸者所需要的。
在社会经济现象中,通常变量取值人时方差也人,在以经济总量为研究目标时,更关心的是变量取值人的项,而普通最小二乘恰好能满足这个要求。
动态数据的指数平滑法把近期数据加上人的权数,强调近期数据的贡献就是这样的统计思想。
加权最小二乘估计的理论权数是式(4〉,但是实际使用的只能是近似的,通常取为某个H
变量耳平方的倒数,即w=1/xJo对本例的数据,取w=1/x2,加权最小二乘回归方程为=-722.5+0.0881%,判定系数=0.933。
而取最优权数w=1/x*'5所得加权最小二乘回归方程为九=-719.1+0.0879*,7?
2=0.936.两者非常接近。
所以当手头没有SPSS软件时,直接取w=1/xj是•个可行的方法,这时对加权最小二乘回归的效果要用残差图等方法验证。
如前所述,当用变换变量方法做加权最小二乘估计时,选取w=1/x:
的•个好处是回归模型中仍然含有常数项,这时不同软件对回归拟合优度检验的结果就-致了。
异方差问题是社会经济现象建立回归模型时的普遍问题,加权最小二乘估计是解决异方差的•个常用方法,另外•个方法是当模型存在异方差性时,人们往往还考虑对因变量作变换,使得对变换过后的数据误差方差能够近似相等,即方差比较稳宦,所以通