第四章 数据分析梅长林习题答案文档格式.docx
- 文档编号:7030124
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:13
- 大小:69.73KB
第四章 数据分析梅长林习题答案文档格式.docx
《第四章 数据分析梅长林习题答案文档格式.docx》由会员分享,可在线阅读,更多相关《第四章 数据分析梅长林习题答案文档格式.docx(13页珍藏版)》请在冰点文库上搜索。
第三主成分贡献率为:
%第四主成分贡献率为:
、
第五主成分贡献率为:
进一步得到各主成分分析结果如表2所示:
表2
Eigenvectors
Prin1
Prin2
Prin3
Prin4
Prin5
…
x1
x2
"
x3
x4
《
x5
.
(2)由
(1)中得到的结果可知前两个主成分的累积贡献率为%,得到第一主成分、第二主成分为:
由于
是五个标准化指标的加权和,由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果,
越大表示各股票的综合周反弹率越大。
中关于三种化工股票的周反弹率系数为负,而关于两种石油的系数为正,它放映了两种石油周反弹率和三种化工股票周反弹率的对比,
的绝对值越大,表明两种石油周反弹率和三种化工股票周反弹率的差距越大。
二、习题
(1)利用SAS的proccorr过程求得相关系数矩阵如表3:
表3
CorrelationMatrix
(
x6
x7
x8
/
[
~
'
!
-
^
(2)从相关系数矩阵出发,通过procprincomp过程对其进行主成分分析,表4给出了各主成分的贡献率以及累积贡献率:
表4
1.
?
6
7
8
%第二主成分贡献率为:
【
%第六主成分贡献率为:
其中前两个主成分的累计贡献率为%
(3)通过上面的计算得到各主成分,见表5:
表5
Prin6
Prin7
Prin8
!
;
)
—
#
由于是
八个标准化标值的加权值,因此它反映了平均消费数据的综合指标。
对于Y1,它反映了各省人均消费水平,除烟茶酒外,其他支出越高,其人均总体消费水平越高,而烟茶酒对其消费水平评价成反方向。
在Y2中人均粮食,人均副食品,人均燃料,人均非商品的系数为负;
人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正,说明Y2的绝对值越大,各省人均消费的在生活必需品与高档品差异越大。
根据第一主成分的得分对各个省份进行排序,见表6:
表6
Obs
location
广东
&
16
宁夏
上海
17
湖南
北京
18
陕西
浙江
19
云南
海南
20
新疆
福建
21
青海
广西
22
安徽
天津
23
甘肃
9
江苏
24
\
内蒙古
10
辽宁
25
贵州
11
西藏
·
26
吉林
12
四川
27
黑龙江
`
13
山东
28
河南
14
湖北
29
]
山西
15
河北
30
江西
三、习题
(1)通过SAS的procprincomp过程计算得到样本协方差矩阵见表7:
表7
CovarianceMatrix
y1
y2
y3
;
求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8:
表8
EigenvaluesoftheCovarianceMatrix
从以上结果可看出前三个主成分贡献率已占%,大于剩下三个成分的总和,已包含原始数据的大量信息,所以保留前三个主成分即可。
(2)通过SAS的procprincomp过程对其相关系数矩阵进行主成分分析,首先得到相关系数矩阵见表9:
表9
%
|
。
求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10:
表10
从以结果可看出前四个主成分贡献率已占%且第四个主成分的贡献率都占到总信息量的的%,与剩下两个成分的总和差不多,所以保留前四个主成分即可。
我认为基于协方差矩阵S的分析结果更合理。
因为由协方差矩阵
输出结果可以看出前三个主成分的贡献率就可达到%大于相关系数矩阵R分析得到前四个主成分贡献率总和%,且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据,所以基于协方差矩阵S的分析结果更为合理。
四、习题
(1)通过proccancorr过程求得以下结果:
表11
Canonical
Correlation
Adjusted
Approximate
Standard
Error
Squared
Eigenvalues
of
Inv(E)*H
=
CanRsq/(1-CanRsq)
两个特征值分别为
】
计算得到各典型变量系数见表下表:
StandardizedCanonicalCoefficientsfortheVARVariables
V1
V2
StandardizedCanonicalCoefficientsfortheWITHVariables
W1
W2
:
所以有
第一对典型变量为:
第一对典型相关系数
第二对典型变量为:
第二对典型相关系数
(2)对典型变量进行显著性检验,结果见表12,其中P1=<
,P2=<
,故两对变量都显著相关。
表12
Test
H0:
The
canonical
correlations
in
the
current
row
and
all
that
follow
are
zero
Likelihood
Ratio
F
Value
Num
DF
Den
Pr
>
F
19992
.0001
9997
五、习题
(1)首先计算得到协方差系数矩阵:
协方差矩阵,自由度=24
@
进而从协方差系数矩阵计算得到典型变量系数:
RawCanonicalCoefficientsfortheVARVariables
RawCanonicalCoefficientsfortheWITHVariables
(2)计算得到样本相关系数矩阵:
从相关系数矩阵出发,进行典型相关变量分析:
第一对典型相关系数为:
第二对典型相关系数为:
因为样本中测量的数据的量纲都是相同的,所以无论是从协方差系数矩阵还是相关系数矩阵进行典型相关分析,得到的结果是一样的。
对典型变量进行显著性检验,结果见表13:
表13
42
取显著水平为,其中第一对典型变量的检验p值为,小于,所以第一对典型变量显著相关,而第二对典型变量的检验p值为,大于,所以第二对典型变量不是显著相关。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章 数据分析梅长林习题答案 第四 数据 分析 梅长林 习题 答案