多变量分析主成份分析.docx
- 文档编号:5402521
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:7
- 大小:46.85KB
多变量分析主成份分析.docx
《多变量分析主成份分析.docx》由会员分享,可在线阅读,更多相关《多变量分析主成份分析.docx(7页珍藏版)》请在冰点文库上搜索。
多变量分析主成份分析
基礎統計報告
多變量分析-主成份分析
系級:
統計學研究所一年級
姓名:
林忻靈
學號:
M0974402
目錄
摘要2
主成份分析的應用2
主成份分析的理論3
主成份分析的解釋4
討論5
參考文獻6
摘要
主成份分析主要是利用原有的變數組合成新的變數,且新的變數個數比原變數個數來得少,以達到資料縮減的目的,而新變數將盡可能可以解釋原來資料大部分的變異。
主成份分析的應用
在管理上,為了顧及決策的周延性全面分析問題,常會用一群變數來共同判定一個決策是否應該執行,但這一群變數通常是需要觀測許多變數所得到的;因此,我們希望以一些新的變數(少於舊的變數)來取代這群舊的變數,並且這組新變數應盡可能的反應舊變數的資訊。
例如,某公司的財務分析師要分析其公司的財務狀況,找出了100種財務變數的資料,如何將其簡化成少數綜合指標,且這些綜合指標均是原來100種變數的線性組合。
又如,某品管工程師想由一堆製程變數的量測資料中找出幾個主要的綜合指標,以顯示製程是否在控制中。
另一方面,實務上在進行迴歸分析時,有可能發現其自變數彼此高度相關(資料有多重共線性),導致估計的迴歸參數標準差太大,使得顯著性檢定用的t檢定值明顯縮小,而使得我們得到的整體估計的模型配適度雖然還不錯,但大部分的參數卻都不顯著的結果。
利用主成份分析可解決以上之問題,其中主成份分析形成的新變數是原變數的線性組合。
主成份分析的理論
先由二維主成份分析來看:
如上圖,新軸為X1*,X2*,設新軸X1*與X1的夾角為θ,則觀測點相對於新的坐標為
。
主成份分析就是要找一角度θ,使X1*的變異數達到最大。
理論上,若代入的是X1*變異數最大值時之旋轉角度,則計算後之X1*及X2*之相關係數為0。
我們可歸納幾點如下:
1.觀測點投影至X1,X2軸,得原變數之坐標;新軸即X1*,X2*稱為主成份,觀測點投影至X1*,X2*軸所得新值稱為主成份計分(principalcomponentsscores)。
2.新變數為原變數的線性組合,且均值保持不變為0。
3.X1*,X2*的總平方和與原變數X1,X2的總平方和相同。
4.X1*,X2*的總變異數與原變數X1,X2的總變異數亦相同;即原資料之總變異數在旋轉θ後,保持不變。
5.X1*解釋總變異的百分比一定比任一原始變數X1或X2解釋總變數的百分比大。
6.新變數的相關係數為0,即X1*,X2*不相關。
我們可由二維主成份分析的幾何意義推廣至多維度:
設有p個變數,則在p維空間上,新軸X1*有最大變異數(表其有最大解釋變異能力);第二個新變數X2*與X1*不相關,且X2*有第二大變異數(尚未被X1*解釋的變異部分,擁有最大解釋能力);第三個新變數X3*與X1*,X2*都不相關,且
X3*有第三大變異數;依此類推,至最多p個新變數X1*,X2*,…,Xp*為止。
理論上,主成份分析是欲導出一組新的直交坐標軸使得
1.所得新軸(新變數)稱為主成份,觀測點投影至新軸所得新坐標稱為主成份計分。
2.新變數為原變數的線性組合。
3.第一個新變數可解釋原資料最大的變異數。
4.第二個新變數可解釋最多第一個新變數未能解釋的總變異,依此類推。
5.p個新變數彼此不相關。
主成份分析的解釋
主成份分析的目標可公式化如下:
,其中,
(1)所有主成份之間xi,xj不相關,i≠j
(2)第一個主成份x1*的變異數最大,第二個主成份x2*次之,依此類推
(3)
(使得新變數的尺度固定)
(4)
(使得wi,wj直交或不相關)
1.敘述統計之重要元素:
若x1,x2之互變異矩陣為
,則可知兩變數的相關係數為0.746(即
),且總變異數為44.182,可得知x1的變異數解釋了52.26%(即
)。
2.主成份:
想要求出
等係數,須在
條件下,找一向量w(weight,權重)使其滿足在w’w=1的情形下,使得
最大(其中
為互變異矩陣),則此解即為矩陣
的最大特徵值所對應的單位特徵向量。
其中,主成份為
的線性組合,且主成份的權重平方和為1。
任兩組權重的點積為0。
因為p個主成份彼此不相關,故其解釋變異量不重疊(互變異數為0),且新變數變異數的總和等於原始資料的變異數總和。
一般而言,p個變數希望只用m個主成份(m
前m個主成份的變異數加總,可用來量測資料在較低維度(m維)空間上,原來資訊損失的程度。
3.主成份計分:
決定主成份後,可對各觀測資料點計算其對應各主成份之主成份計分,觀測點在新軸的投影長稱為主成份計分;主成份計分可用來將各觀測點分類,亦可將每一個觀測點的各主成份計分綜合以計算一個加權平均的綜合性指標。
4.負荷(loadings):
新變數與舊變數的相關係數稱為負荷。
負荷表示原始變數對新變數的影響力或重要性;負荷愈大,表示影響力愈大。
負荷可由公式求得:
;
其中,
表第j個變數在第i個主成份的負荷,
表第j個變數在第i個主成份的權重,
表第i個主成份的特徵值(即變異數),
表第j個變數的標準差。
討論
1.不同型態的資料(均值修正資料或標準化資料)對主成份分析的影響為何?
以均值修正或標準化資料所得之主成份不完全相同,即變數的變異數(或標準差)的大小會影響主成份的結果。
一般而言,
(1)各變數的單位或變異數無太大不同時,兩種型態的資料均適於做主成份分析。
(2)以標準化資料做主成份分析較常見。
(3)若有理由相信:
變數的變異數是該變數的重要指標,而要列入分析考慮,則用均值修正資料。
2.主成份分析是否為適當方法?
用主成份分析的新變數有何優缺點?
主成份分析依研究目標而定是否為適當方法。
(1)若研究目標是找出不相關的新變數,以便進一步分析,則應視主成份是否可解釋而定;若主成份無法解釋或無特別意義,則不應以主成份形成新變數。
(2)若研究目標是欲「簡化」變數個數,則須要求少數幾個主成份可解釋大部分的總變異,而不致損失原始資料的資訊。
例如:
科學家用100個變數的資訊來決定是否可讓太空梭起飛;若發現用5個主成份即可解釋99%的總變異,即只損失1%的資訊,但這1%已夠嚴重,則不可使用主成份分析。
若變數的相關性不高,則資料做主成份分析就不合適。
有正規的統計方法可判定一群變數是否相關,如標準化資料的Bartlett’s檢定法;但這些檢定法都對樣本數很敏感,使得大標本時相關係數很小,即容易拒絕Ho,而認為相關係數顯著的不為0,故實務上,並不建議使用檢定法。
至於少數幾個主成份是否已能實質的解釋大部分的變異,只能依題目自行判斷。
3.應選取多少主成份才合適?
即應取多少新變數做進一步分析與解釋?
(1)對於標準化資料,取特徵值大於1之主成份。
(2)對於均值修正或標準化資料,將每一主成份解釋變異之%對主成份個數
做圖找尋肘點(elbow),稱此圖為陡坡圖(screeplot)。
陡坡圖,也就是將特徵值對主成份個數做圖,尋找出肘點(指由坡度變為較平緩的轉折點),即為應保留的主成份個數。
但是,有時並不容易找出肘點。
4.如何解釋主成份?
通常可由負荷的大小來判定如何解釋主成份。
負荷愈大,表示該變數對主成份的影響愈大,一般取大於0.5為夠大的取捨標準。
5.主成份計分應如何用來做進一步分析?
(1)可將主成份計分繪製成散佈圖分析。
若第一主成份及第二主成份已解釋變數大部分的變異,則可將第一主成份計分及第二主成份計分繪製成散佈圖,再由圖形觀察點較為集中的為一群。
(2)利用總計分分群做分析。
但利用總計分做為判斷分群的標準,須注意總計分的計算會因為各主成份權重的變化而有所不同,且分群標準不同也有可能會導致不同的結果,所以可根據分析的目的自行設定分群標準。
參考文獻
1.林師模,陳苑欽(2003)。
多變量分析:
管理上的應用,雙葉書廊。
2.SubhashSharma(1996).AppliedMultivariateTechniques,Wiley,NewYork.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多变 分析 成份