应用回归分析之课题.docx
- 文档编号:14427344
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:9
- 大小:57.97KB
应用回归分析之课题.docx
《应用回归分析之课题.docx》由会员分享,可在线阅读,更多相关《应用回归分析之课题.docx(9页珍藏版)》请在冰点文库上搜索。
应用回归分析之课题
第16章應用迴歸分析之課題
本章主要討論多變數迴歸分析所可能碰到的一些問題,諸如:
Multicollinearity(線性重合)
Heteroscedasticity(異質變異)
Autocorrelation(自我相關)
等等問題。
16.2Multicollinearity(線性重合)
線性重合:
有兩個以上的自變數互為高度相關的現象。
完全相關(perfectcorrelated):
即兩個自變數的相關係數為1。
高度相關(highlycorrelated):
即兩個自變數的相關係數大於0.8或0.9之情形。
線性重合之問題何在?
1.如果為完全線性重合(兩個自變數的相關係數為1),則無法用最小平方法求得迴歸係數。
如:
(兩個自變數的例子)
若x1=cx2,而c為常數
最小平方法的一階條件(解b1,b2者):
以x1=cx2帶入:
上面兩個方程式完全一樣,故而只能解一個變數,無法解兩個變數。
解決辦法:
去掉x1或x2自變數少了一個,再來做迴歸估計,就不會有這個問題了。
2.如果為高度相關者,其迴歸係數的變異數變得相當大(請看第702頁的16.2與16.3式,因r值接近於1,故變異數趨近於極大),因此,所估計的迴歸係數將因不同的抽樣而有相當大的變異(不同樣本間估計值之差異將會很大);此外,因迴歸係數的變異數很大,其t值就會變小,因此使得迴歸係數顯得很不顯著。
3.無法確實地分離出某自變數(如x1)對應變數的單獨影響效果,因為當x1變動時,與其相關的x2也會一起變動,故而,我們很難分辨y的變動是由何者(即x1或x2)所造成。
然而,在例16.1中可以看到:
雖然t檢定不顯著,但線性重合對ANOVA的F檢定並無影響。
判定線性重合的經驗法則:
1.先看自變數之間的相關係數是否大於0.8或0.9。
2.如果自變數的個數超過兩個以上,除了相關係數外,還要看各自變數與所有其他自變數之間是否高度相關。
作法:
另外做自變數間的迴歸估計(見第703頁的第16.5式),並求各估計式的判定係數,然後以VIF(varianceinflationaryfactor)作為判定之標準:
亦即,VIF≥10才有線性重合的問題。
例如:
16.4式為三個自變數的例子
y=α+β1x1+β2x2+β3x3+ε
再估計:
x1=a0+a1x2+a2x3
x2=b0+b1x1+b2x3
x3=c0+c1x1+c2x2
然後,求Ri2值,i=1,2,3,VIFi=1/(1-Ri2)
若VIF>10,則0.95<|Ri|<1
例16.1:
(第704頁)分析線性重合的問題:
30個公司,1983-1985年(三個樣本)的資料來估計:
n=30,k=2
y=PPS,
x1=DPS,x2=RE
迴歸估計式如下:
1983:
y=22.773+10.733x1+1.431x2
(F=16.11)(4.15)(4.28)(2.30)
1984:
y=11.336+12.434x1+3.088x2
(F=31.44)(2.33)(4.41)(2.39)
1985:
y=21.529+12.553x1+3.014x2
(F=15.97)(2.81)(3.16)(1.81)
顯著水準:
5%
H0:
β1=β2=0
H1:
β1≠0,orβ2≠0
F檢定的臨界值=3.35
F檢定顯示迴歸估計的係數相當顯著。
再看:
x1=a0+a1x2的R2值
記住:
在這裡R2=r212=(0.6064)2
因此,VIF=1/[1-(0.6064)2]=1.5815<10
其VIF遠低於10,故此迴歸模型比較沒有線性重合的問題。
16.3Heteroscedasticity(異質變異)
前面所提之迴歸分析皆為同質變異,即不同樣本點(觀察值)之變異皆相同:
σi=σj=σ,i≠j
而此處的變異則隨樣本之不同而有所差異,例如:
大廠的營收之迴歸估計誤差的變異大於小廠者,或高收入家庭支出的變異程度常大於低收入者,在現實生活中常可見到此種現象。
異質變異的問題所在:
最小平方法在估計時,大誤差與大變異的觀察值所給的權數較大,因此,對於誤差與變異較大的部分之觀察值之估計較為理想,反之對於小誤差與小變異的觀察值部分則較不理想,事實上,最小平方法因使用同質變異之假設,故而不能得到使估計誤差的變異數最小之結果。
如何辨識異質變異之問題?
1.最簡單的方法就是畫圖,觀察誤差項e與自變數(或y的估計/期望值)間的關係。
如果資料分散的情形(即離散度)相當一致,則為同質變異,否則,就有異質變異的問題。
2.另外還有一種稍微複雜的方法,其步驟如下:
a.先作一般的迴歸估計
b.計算殘差值:
e
c.估計:
d.計算c項估計式的nR2值
e.用χ2統計值(自由度1)來檢定nR2是否顯著異於零。
用例16.2來分析異質變異的問題:
(我們仍沿用例16.1的資料來分析)
1.首先,觀察在708-709頁的圖形,發現殘差的離散度隨著預測值而逐漸加大,以1985年的資料最為明顯。
2.接著,再用上述的5個步驟來分析異質變異的問題:
a.估計1983-1985的三條迴歸式(見表16.1)
b.計算e值(列於表16.3中)
c.用1985年的資料來估計:
得出第710頁的迴歸估計線:
R2=0.345
H0:
sameσ2
H1:
differentσ2
nR2=30×0.345=10.35
而χ21,5%=3.84
rejectH0
在本例中,解決異質變異的方法:
因為離散度隨
增加而擴大,故可以用二階段迴歸估計法:
1.先估計原先的迴歸式,而後計算
值,
2.在第二階段中,將所有觀察值除以
,因此,誤差項的離散度就會趨於一致(相等)。
本例中:
用1985年資料估計的
列於表16.4第1欄,將所有資料除以第1欄的
值,而後再來作迴歸估計,即估計下式:
其估計結果列於第711頁,括弧中的數字為t值。
16.4Autocorrelation(自我相關)
第15章以前的迴歸模型,我們假設:
誤差項之間的相關係數為0,但在時間數列的資料中,誤差項常會與自己的前一期誤差高度相關,這就是本節的主題:
自我相關的問題。
圖16.6顯示et-1與et間的關係:
(a).無自我相關;(b)正自我相關,(c)負自我相關
Durbin-Watson(D-W)統計值:
─用來檢定一階自我相關問題。
一階自我相關(First-orderautocorrelation):
誤差項間的關係只發生於一期之差的前後期誤差項(即:
t期與t-1期之間,t可為任意一期)。
一階相關係數:
而D-W統計值可用來檢定:
H0:
無一階自我相關,H1:
有一階自我相關
DW≒2(1-r1)
當r1=0DW=2:
無自我相關
當r1=1DW=0:
正自我相關
當r1=-1DW=4:
負自我相關
圖16.7顯示:
0≦DW≦4
然而,不同的抽樣(自變數X的數值)與誤差項的分配型態決定DW的分配型態,為得知X的數值前,無法求得DW的一般分配型態,但是,我們可以根據樣本個數(n)與自變數個數(k)來找出兩個特殊的統計數的分配:
du與dL的分配(DW表列於書後的B表A9中)。
當du≦DW≦4-du時,接受H0:
無自我相關
當DW≦dL時,接受H1:
正自我相關
當4-dL≦DW時,接受H1:
負自我相關
注意:
dL≦DW≦du與4-du≦DW≦4-dL,為無結論區,即無法做出結論。
例16.3─判斷一階自我迴歸問題:
n=21,k=1
y=Ri(rateofreturnforfirmi)
x=Rm(marketrateofreturn)
ForGM:
y=0.0654+0.283x
DW=2.21
ForFord:
y=0.035+0.627x
DW=1.93
α=5%dL=1.22du=1.42
4-dL=2.784-du=2.58
此乃雙尾檢定(α=10%):
因為1.42=du≦DW(2.21or1.93)≦4-du=2.58
Noautocorrelation
第715頁另一迴歸分析:
n=21,k=1
y=DPS(dividendpershare)
x=EPS(earningspershare)
ForGM:
y=2.87+0.179x
DW=1.2
ForFord:
y=2.18+0.0437x
DW=0.59
因為(1.2or0.59)DW≦dL=1.22
為正自我相關
解決自我相關之方法:
因為傳統的迴歸估計係數不可靠,我們可以修正迴歸模型為:
yt-ryt-1=a(1-r)+b(xt-rxt-1)+(et-ret-1)
而r=1-DW/2
16.8DummyVariable(虛擬變數)
有時候在自變數中可能也包括非數量化的變數,如:
性別、國別、是否為一家之主、等等變數,這些變數雖無法轉成有意義的數量,但仍為相當重要的影響因素,因此,我們也必須將他們放在迴歸模型中,用來預測應變數的行為。
虛擬變數通常以0或1的方式出現於迴歸模型中,如:
y:
勞工年所得(年薪)
x1:
教育水準
x2:
工作經驗
x3:
……..
D=x4:
性別(D=0為女性,D=1為男性)
若b4=1,214,表示男性比女性年薪高出$1,214
例16.9─虛擬變數(不同時段)對貨幣供給的影響:
DUM=1ifyear=1979-1990
DUM=0ifyear=1959-1978
因為美國聯邦準備(中央銀行)在1979後改變了他的貨幣政策,故而採用虛擬變數來反應之,其迴歸係數估計值為198.41,且非常顯著,表示央行改變政策後對貨幣供給有相當顯著的正向影響。
16.9InteractionVariable(交叉變數)
有時候自變數之間互相影響,使其對應變數的影響效果加大,這時,傳統的迴歸模型就不能表現此種現象,我們可以加入交叉變數來反應此現象。
如:
y:
玉米產量
x1:
雨量
x2:
肥料
x1x2:
雨量×肥料(雨量越多會使肥料更有生產力)
y=a+b1x1+b2x2+b3(x1x2)+e
因此,增加一單位肥料對玉米產量的影響為:
b2+b3x1
可用t檢定來測試交叉變數的係數是否顯著。
例16.10─虛擬變數、交叉變數的係數均非常顯著。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 回归 分析 课题