书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 能源化工 > 浅谈加权最小二乘法及其残差图doc.docx

浅谈加权最小二乘法及其残差图doc.docx

文档编号：11081346
上传时间：2023-05-29
格式：DOCX
页数：17
大小：27.13KB

《浅谈加权最小二乘法及其残差图doc.docx》由会员分享，可在线阅读，更多相关《浅谈加权最小二乘法及其残差图doc.docx（17页珍藏版）》请在冰点文库上搜索。

浅谈加权最小二乘法及其残差图doc.docx

浅谈加权最小二乘法及其残差图doc

浅谈加权最小二乘法及其残差图

关键词：

异方差；加权最小二乘法；残差图；SPSS

一、引言

好几年没有翻《统计研究》了。

最近，有•同行朋友打电话告诉我《统计研究》2005年第11期上刊登了•篇有关我与刘文卿合作编著的《应用回归分析》（2001.6冲国人民人学出版社）教材的文章。

赶紧找到这期的《统计研究》，看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨•与何晓群教授商榷》•文，以下简称《孙文》。

认真拜读后感触良多。

首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节，同时感谢《统计研究》给我们捉供这样•个好的机会，使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。

《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。

摆出了与加权最小二乘法相关的二类残差图，指出第二类残差图的局限性。

直接的问题是二类残差图的作用，而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。

二、对加权最小二乘法的认识

1.加权最小二乘估计方法

拙作《应用回归分析》中对加权最小二乘法有详尽的讲述，这里仅做简要介绍。

参元线性回归方程普通最小二乘法的离差平方和为：

0（00,01,...,0"）=£（兀一00-01兀10异丿

（1）

i=\

普通最小二乘估计就是寻找参数屈，…，“”的估计值厲屁…，BP使式

（1）的离差平方和O达极小。

式

（1）中每个平方项的权数相同，是普通最小二乘回归参数估计方法。

在误差项©等方差不相关的条件下，普通最小二乘估计是回归参数的最小方差线性无偏估计。

然而在异方差的条件下，平方和中的每-项的地位是不相同的，误差项①的方差大的项，在式

（1）平方和中的取值就偏大，在平方和中的作用就大，因而普通最小二乘估计的回归线就被拉向方差人的项，方差人的项的拟合程度就好，而方差小的项的拟合程度就差。

由式

（1）求出的R。

2、，…，亿仍然是仇，优,…的无偏估计，但不再是最小方差线性无偏估计。

加权最小二乘估计的方法是在平方和中加入-个适当的权数叱，以调整各项在平方和中的作用，加权最小二乘的离差平方和为：

0"（00,01,・"，0"）=£叱（兀-00-01©0心）2

（2）

/=1

加权最小二乘估计就是寻找参数00.01,…,0”的估计值久”,卸、、，使式

（2）的离差平方和Q"达极小。

所得加权最小二乘经验回归方程记做

理论上最优的权数叱为误差项方差云的倒数，即

叱=厶（4）

•i

谋差项方差人的项接受小的权数，以降低其在式

（2）平方和中的作用：

误差项方差小的项接受大的权数，以提高其在平方和中的作用。

由（2〉式求出的加权最小二乘估计…，久”就是参数Oo,A,…，"”的最小方差线性无偏估计。

•个需要解决的问题是谋差项的方差是未知的，因此无法真正按照式（4）选取权数。

在实际问题中谋差项方差通常与自变量的水平有关，可以利用这种关系确定权数。

例如（7J与第J个自变量取值的平方成比例时，即＜7,2滋；/时,这时取权数为

",.=丄（5）

更•般的情况是误差项方差b与某个自变量厂取值的幕函数*成比例，即员蛛沖,其中是待定的未知参数。

此时权数为

叱（6）

这时确定权数叱的问题转化为确定幕参数加的问题，可以借助SPSS软件解决。

《应用回归》书中和《孙文》中都讲了这个方法，本文不再重述。

需要注意的是，在实际问题中比例关系端只是近似的，式（6）确定的权数叱只是式（4）最优权数的近似值，因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。

2.变量变换的加权最小二乘法

《孙文》中谈到：

加权最小二乘法的实质是要对原始数据实施变换，获得新的解释变量和被解释变量，变换的方法是：

m

/=y-Xj”（：

/表示变换后的彼解释变量）（7）

m

厶二Xj',治0,12"（对是对应于原始变量可的新解释变量）（8）对变

换后的变量（只尤,*；,•••,©）重新进行普通最小二成估计（注意，此处的回归«

模型不包含常数项，增加了数据变换后派生出的-个新解释变量X：

=x/2），即可得到加权最小二乘法的经验回归方程：

K=+（9）

以上是《孙文》中对加权最小二乘法的解释，其中公式（7）、（8）、（9）分别对应

《孙文》中的公式（3）、（4）、（5）o

3・两种方法的异同

相同之处。

显然，式（3〉与式（9）两个回归力程是等价的，把式（3）同时乘以=后就转化为式（9）=

不同之处。

首先，式（3）的回归方程九=久”+氐可+•••+肉几使用起来比较方便，因为利用该回归方程进行预测和控制时，无须按式（8）变换自变量的新值，直接将自变量的新值代入式（3）即可。

对这•点孙小素副教授也是认同的。

其实，所有方法的优劣评价根木就在于他是否方便于建模最终的应用。

其次，虽然两种加权回归方法所得的回归方程是等价的，但是对回归效果的拟合优度和检验是不同的，式（3）的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为：

£叱（开-加=£叱（刃”-几尸（10）

Z-lZ-iZ-I

其中几是y,用叱加权的算术平均数。

由于式（9）的变换加权最小二乘回归方程不含常数项，所以不满足离差平方和分解式，而是对直接的平方和满足分解式，总平方和、回归平方和、残差平方和的计算公式和关系为：

ty?

（11）

91i=/i=l

等价于

（12）i=lz=!

i=I

对不含常数项的普通最小二乘回归，SPSS软件就是用上述公式计算平方和并进而计算

判定系数R2和做F检验的。

然而，这种做法的合理性是有欠缺的，因为总平方和妙］2不

能如实反映閃变量的变差，仅是为了满足平方和分解式而这样做，有削足适履的嫌疑。

另外•种做法是以£（y-y*）2作为总离差平方和，把£（y：

-/）2-£e：

j作为回

i=/i=li=I

归离差平方和，而不使用£（y：

„,-yz）2作为回归离差平方和，Excel软件不含常数项（即如指定常数项为零）的普通最小二乘回归就是采用的这个方法。

对《孙文》所引用的《应用回归分析》例题，有关的计算结果见衣I

对同样的数据做变换加权最小二乘估计，市面上流行的不同软件的拟合优度检验却差别很人，SPSS软件计算出的F=442.2,7?

2=0.968:

Excel软件计算出的F=74.26.7?

2=0.837o对其他数值就不逐•对比了。

表1（a）普通最小二乘方差分析表（SPSS）

平方和

1844010

1778202

自由均方

]184401

2961317

F显著性F

300.77.53E-~~0^1

■r

2021831

30

表1（b）乘

加权最小二乘方差分析表（SPSS）

平方和自山均方

显著

6.6

0.4

29

6655423.77.51E-0?

93

■cZ*

0.015

30

表1（C变换加权最小二乘方差分析表（SPSS）

来

平方和

自由均方F

L二■■

显著性

0

13.8

°6.945

1.88E-

0.96

取

%•

总

Z%■

0.455

14.3

AW

20.0157

C

3

1

表1（d）变换加权最小二乘方差分析表（Excel）

来

平方和

自由

均方F

显著性

0

2332

2

1.166

6.39E-

0.83

莪

0.4554

29

0.0157

2.788

31

针对上述问题，变换加权最小二乘法实际上常用于式（5）成立的情况，即心此时

变换后的自变量X；三1,回归参数0）就相当于回归常数项了，对变换后的数据就可以用含有常数项的普通最小二乘估计方法，各种统计软件对变换加权最小二乘法回归的拟合优度检验的输岀结果就都•致了。

遗憾的是，即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不•致，这只需仔细比较两种情况的总离差平方和公式J（屮・D2和

Z-1

£叱（兀-几〉2的差异即可。

Z-I

这种通过变换变量求解加权最小二乘估计方法的作用是什么呢？

引用文献［1］第180页的•段文字给予解释：

“许多回归软件包允许用户有选择地使用具体的权数进行•加权最小二乘分析。

如果不能选择，通过对观察值的具体变换，使用不加权的最小二乘法，仍能得到加权最小二乘估计量。

”

可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的•种计算手段而存在的，如果你使用的软件仅具有普通最小二乘功能，就只能用变换变虽的方法求解加权最小二乘的参数估计。

《应用回归分析》教材是结合SPSS软件编写的，而SPSS软件允许用户自接使用权数进行加权最小二乘分析，不必通过变换变量的方法求解加权最小二乘估计，因此我们在教材中没有给出这种通过变换变虽求解加权最小二乘估计的方法。

纵上所述，在拥有像SPSS这种能够直接计算加权最小二乘估计的软件时，就不必使用变换变量求解加权最小二乘估计的方法了。

即使使用的是变换变量求解加权最小二乘估计的力法，也应该把式（9）变换回式（3）的形式，用来宣接农示岀原始变量之间的关系。

因此《孙文》把式（9）称为加权最小二乘法的经验回归方程就显然不合适了。

我们也没有见到其他的文献用这个称法。

三、三类残差图的作用

以残差为纵坐标轴以自变量（或回归值$）为横坐标轴画的散点图就是残差图。

《孙文》中的三类残差图如下：

1.普通残差图。

指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差e.所做的残差图，也就是《孙文》中所称的第•类残差图。

2.加权普通残差图。

其残差是用原始数据做加权最小二乘估计所得的普通残差e”（在

《孙文》中记做e：

），也就是《孙文》中所称的加权派生残差图，或第三类残差图。

3•加权变换残差图。

其残差是用变换数据做加权最小二乘估计所得的普通残差e：

（在

《孙文》中记做e“），也就是《孙文》中所称的加权残差图，或第二类残差图。

e：

的计算

方法有两种，第•种方法是用式（9）的变换加权最小二乘法得到，第二种方法是把加权普

—m

通残差乘以4w=Xjz得到，即e'・=e.-4w-e・-Xj'o

拙作《应用回归分析》•书中重点讲述的是普通残差图的作用，可以从直观上判断回归模型是否存在异方差性，还可以进•步用普通残差的绝对值与自变虽计算等级相关系数，做相关性检验来判断是否存在异方差性。

在教材正文中对加权残差图只是给出了软件绘制的方法和图形，并没有对图形结果做任何文字说明和评价。

山于考虑有些初学者可能会产生误

解，我们在教材第121页“本章小结与评注”中对加权残差图做了简要解释，引述如下：

“从残差图来看，普通最小二乘估计只能照顾到残差大的项，而小残差项往往有整体的正偏或负偏。

加权最小二乘估计的残差图，对人残差和小残差拟合的都好，人残差和小残差都没有整体的正偏或负偏。

”

以上这段文字指出了加权残差图的作用，如果在普通残差图中小残差有整体的正偏或负偏，而在加权普通残差图中得到明显的改善，这就说明加权最小二乘估计是显著有效的。

两种残差图在《应用回归分析》和《孙文》中都已给出，本文就不重复绘制图形了，而是把三种残差的具体数值列在衣2中，说明加权普通残差的作用。

三种残差的数值

序号

y

■

W

9

giw

2

1.2161E-

0

16

0.23

1

64

8777

9

211

3

1

1.1314E-

0

1

0.01

尸

05

9210

-27

4

5

1.0069E-

-

■

<

■

90

9954

0

■

10气

-66

0.066

L

1

31

1050

8

9.2837E-

0

*7

11

1

-74

0.071

s

1

22

1097

9

8.6927E-

0

*7

15

Q

124

■

0.116

6

1

07

1191

2

7.6917E-

0

r

25q

221

■

0.194

4

1274

6.9485E-

0

0.00

■

06

7

r

-25

4

5

1349

6.3760E-

0

0.02

S

03

9

r

8

35

8

C

4

31

1426

9

5.8669E-

0

r

12

9

105

0.080

1

5

1552

5.1710E-

0

■

0

88

2

r

-78

-58

0.042

8

1673

4.6212E-

0

13

0.09

11

98

0

146

9

1

9

1766

4.2599E-

0

10

0.07

2

50

3

r

3

116

6

3

1

7

79

1857

5

3.9501E-

0

r

14

6

135

0.085

4

1

8

19

1963

5

3.6346E-

0

19气

188

■

0.114

1

122

2116

3.2481E-

0

0.04

5

2

3

78

80

6

1

170

2288

2.8895E-

0

41

0.22

6

2

0

3

409

0

2.6684E-0

1

157

2412

7

18

176

0.091

7

8

7

2.4408E-

3

1

165

2560

7

13

1

8

4

2.3181E-

4

122

0.060

1

140

2650

7

-

•

9

0

2.1726E-

19

211

0」02

5

2

182

2767

7

13

115

0.054

0

9

0

2.1OO5E-

4

2

220

2830

7

45

431

0」97

1

0

2.2012E-

2

201

2743

7

34

324

0」

2

7

0

1.9676E-

3

52

2

210

2956

7

25

225

3

5

0

2.1173E-

0

0.100

2

160

2815

7

-

4

0

1.7388E-

13

156

0.072

气

2

225

3210

7

12

147

5

0

1.7068E-

IO

0

0.061

2

242

3250

7

31

0.11

6

0

1.5110E-

7

281

6

2

257

3525

7

23

190

0.074

7

0

1.6309E-

4

2

172

3350

7

-

8

0

1.4640E-

46

507

0.205

X

2

190

3600

7

-

9

0

1.4519E-

50

546

0.209

0

3

210

3620

7

-

0

1.3394E-

31

364

0」39

7

3

230

3820

7

-

1

c

C4C

CI4

这个例「共有31对数据，把数据分为3组，第1-10对数据为第】组，是小方差组：

11-21对数据为第2组，是中等方差组；22-31对数据为第3组，是大方差组。

从衣中看到，第I组10个普通残差e：

中有8个是负值，说明普通残差图中小残差有整体的负偏。

而10个加权残差弓”中只有6个是负值，说明加权残差对小残差整体负偏的情况已经有了明显改进。

10个普通残差中绝对值最人的是e6=-253,加权回归后改善为e6”=

-2210图形是对数值的自观展示，从两张残差图上也是可以看出相同现象的。

第3组10个普通残差e：

和加权残差弓”的正负性相同，正负值各有5个，说明普通最

小二乘和加权最小二乘对人残差项拟合的都好。

仔细观察这组的两种残差还是能发现区别的，

10个普通残差中绝对值最人的是e29=-500.加权回归后成为5=-546。

不是像小残差组那样得到改善，而是误差变得更人。

其道理也很简单，加权最小二乘估计照顾小残差项是以牺牲人残差项为代价的，有得必有失，也是有局限性的。

《孙文》中认为加权残差图存在•定的局限性，具体农现在：

“第这类残差图不能用来检验模型是否存在异方差问题。

第二，这类残差图也不能用来说明模型中的异方差问题是否得到妥善处理。

”

关于第-点，准确地说是不必用加权残差图检验模型是否存在异方差问题，并非不能用，这是因为检验模型是否存在异方差问题的匚作已经由普通残差图完成。

实际上用加权普通残差图检验异方差的效果是优于普通残差图的，这是因为存在异方差时普通残差对误差的估计是失真的，而加权残差则能够更真实地反映误差项的大小。

关于第二点，如果从加权残差图中看到小残差项已经没有整体的正偏或负偏，则说明加权最小二乘估计已经消除了异方差的影响。

《孙文》中捉出的加权变换残差图（第二类残差图）是有其长处的，可以比加权普通残差图（第三类残差图）更直观地看出加权最小二乘估计是否真正解决了异方差问题，这只要看看残差图中散点在左右两端分布得是否平齐即可。

还可以由加权变换残差e：

”用等级相关系数法做检验，判断异方差是否真正得以消除，这个作用是加权普通残差弓”不具备的。

这两个作用在《孙文》中已经详细介绍。

顺便指出《孙文》以加权变换残差e：

“为纵轴，分别以两个变换后的自变量X：

=X*75和X：

=*25为横轴绘制岀两张残差图是不必要的，实际上这两张残差图是等价的，从图形上看只是左右颠倒。

加权变换残差e：

“的数值是对原始数据的残差做了变换，其数值人小只具有相对意义。

加权普通残差勺”是原始数据的残差，其数值大小具有绝对意义，它综合了普通残差和加权变换残差的部分功能，当然同时也丧失了部分功能。

《孙文》中讲述了用变换加权最小二乘法计算加权变换残差e：

"的方法。

实际上，在用SPSS软件计算出权数VV.和加权普通残差勺”后，只须根据关系e：

"=何•弓”就可以计算出加权变换残差e：

”，而不必用变换加权最小二乘方法。

拙作《应用回归分析》在正文中对加权变换残差图完全没有提及，不过“本章小结与评注”中的•句话“如果把谋差项加权，那么加权的误差项応•刍是等方差的”，可以看作是对加权变换残差e：

“的诠释。

拙作《应用回归分析》关于加权普通残差图的内容是这样讲述的：

“为了洒残差图，需要计算出加权最小二乘估计的残差勺”，这需要重新做回归。

第•步，在WeightEstimation对话框的Options选项中，保存最优权作为新的变虽。

第二步，进入线性回归对话框，点选左下角的WLS.线性回归对话框会增加•行Weight变量框，把在第•步保存的最优权变量选入。

第三步，点选线性回归对话框的Save选项，保存残差变量，运行。

第四步，以自变虽x为横轴，以加权最小二乘估计的残差弓”为纵轴画残差图”

这段内容的直接作用是介绍加权普通残差图的绘制方法，其间接作用是介绍SPSS软件加权最小二乘估计功能的使用方法，也就是“第二步”的内容。

在SPSS软件中，加权最小二乘回归具有普通最小二乘回归的很多功能，包扌舌共线性诊断、异常值判定、自相关分析、区间预测等等，这些功能都是以“第二步”的内容为基础的，计算残差只是众多功能之•而已。

用图形来评价结果往往只是•种粗糙的辅助手段。

正像我们在拙作《应用回归分析》第121页“本章小结与评注”上强调指出：

“关于异方差性的诊断，方法很多，至于哪种检验方法最好，目前还没有•致的看法。

残差图方法岂观但较粗糙。

等级相关系数检验要比残差图检验方法更为可取。

”

四、对异方差问题的深入思考

拙作《应用回归分析》教材定位于统计学专业的本科生或非统计学专业的硕士生，作为3学分54学时的课程教材，限制篇幅和深度，教材中对•些问题不可能全而展开叙述，在此对异方差的一些问题再做进-步探讨。

当回归模型存在异方差时，加权最小二乘估计只是对普通最小二乘估计的改进，这种改进有可能是细微的，不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程，或者•定有人幅度的改进。

对本例的数据，普通最小二乘的经验回归方程是y=-64&1+0.0847%.加权最小二乘的经验回归方程是九=-719.1+0.0879%,两者相差不人。

比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。

看来需要强调指出的是这个改进幅度不是指0,辭丘弋皿是否变为等方差了，而是指回归方程也就是回归系数估计值的差异幅度，在这•问题上加权普通残差图是优于加权变换残差图的。

实际上，可以构造出这样的数据，回归模型存在很强的异方差，加权回归后e'变为等方差了，但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。

加权最小二乘以牺牲人方差项的拟合效果为代价改善了小方差项的拟合效果，这也并不总是研丸者所需要的。

在社会经济现象中，通常变量取值人时方差也人，在以经济总量为研究目标时，更关心的是变量取值人的项，而普通最小二乘恰好能满足这个要求。

动态数据的指数平滑法把近期数据加上人的权数，强调近期数据的贡献就是这样的统计思想。

加权最小二乘估计的理论权数是式（4〉，但是实际使用的只能是近似的，通常取为某个H

变量耳平方的倒数,即w=1/xJo对本例的数据，取w=1/x2，加权最小二乘回归方程为=-722.5+0.0881%,判定系数=0.933。

而取最优权数w=1/x*'5所得加权最小二乘回归方程为九=-719.1+0.0879*,7?

2=0.936.两者非常接近。

所以当手头没有SPSS软件时，直接取w=1/xj是•个可行的方法，这时对加权最小二乘回归的效果要用残差图等方法验证。

如前所述，当用变换变量方法做加权最小二乘估计时，选取w=1/x：

的•个好处是回归模型中仍然含有常数项，这时不同软件对回归拟合优度检验的结果就-致了。

异方差问题是社会经济现象建立回归模型时的普遍问题，加权最小二乘估计是解决异方差的•个常用方法，另外•个方法是当模型存在异方差性时，人们往往还考虑对因变量作变换，使得对变换过后的数据误差方差能够近似相等，即方差比较稳宦，所以通

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 浅谈加权最小二乘法及其残差图 doc

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：浅谈加权最小二乘法及其残差图doc.docx
链接地址：https://www.bingdoc.com/p-11081346.html

浅谈加权最小二乘法及其残差图doc.docx

热门标签