《数据分析》Word文件下载.docx
- 文档编号:7193195
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:21
- 大小:348.77KB
《数据分析》Word文件下载.docx
《《数据分析》Word文件下载.docx》由会员分享,可在线阅读,更多相关《《数据分析》Word文件下载.docx(21页珍藏版)》请在冰点文库上搜索。
语文等级
N
有效
30
缺失
频率
百分比
有效百分比
累积百分比
良
18
60.0
优
6
20.0
80.0
中
100.0
合计
(3)对所建立的数据文件“学生成绩.sav”进行以下分析:
①分析数学平均成绩与60.00是否存在显著差异;
分析:
设原假设为数学平均成绩与60.00是无显著差异的,备择假设为数学平均成绩与60.00是有显著差异的,由图1-1可知,被调查者共计30人,数学平均值为66.6000分,标准差为14.64723;
由图1-2可知,t检验的概率p-值为0.020,小于α=0.05,拒绝原假设,接受备择假设,即数学平均成绩与60.00有明显差异。
②男生和女生的语文平均课程是否存在显著差异;
设原假设为男生和女生的语文平均课程存在显著差异,备择假设为男生和女生的语文平均课程不存在显著差异。
由组统计量表可以看出男女生语文样本均值有一定的差异,从独立样本检验表可以看出:
该检验的F统计量的观测值为4.794,对应的P值为0.037,如果显著性水平α为0.05,由于概率p值小于0.05,可以认为两总体方差存在显著差异,故拒接原假设,即男生和女生的语文平均课程不存在显著差异。
该班级的物理成绩与化学成绩是否存在显著差异。
设立原假设为物理成绩与化学成绩没有存在显著差异,备择假设为物理成绩与化学成绩存在显著差异。
从成对样本统计量表中可以看出,物理与化学成绩的平均值由较大的差异;
成对样本相关系数表表明在显著水平为α=0.05时,对应的概率p-值为0.000接近于0,小于α,所以拒绝原假设,即物理成绩与化学成绩存在显著差异。
2、(15分)“居民储蓄调查数据.xls”是一份关于居民储蓄调查的模拟数据,该数据的第一行是变量名,该份数据的具体含义见Excel文件的后半部分。
(1)将该份数据转换成SPSS数据文件,并在SPSS中定义数据结构(包括变量名、变量类型、变量名标签、变量值标签等),并保存为“居民储蓄调查数据.sav”;
(2)该问卷中的多选项问题是按照哪种方式分解的?
该问卷中的多选项问题是按照多选项分类法分解的,因为其中的选项不止只有两个,存在多个。
(3)有多大比例的居民认为今年的收入比去年增加了?
有多大比例的居民认为今年的收入比去年减少了?
并给出理由。
收入比去年增加了还是减少了
基本不变
48
17.0
减少
180
63.8
80.9
增加
54
19.1
282
通过分析可知,该表中有282个被调查者,并无缺失值,认为今年收入比去年增加的有54人,占总数的19.1%。
而认为今年收入比去年减少的有180人,占总数的63.8%,可知今年收入比去年减少了。
(4)居民存款的最主要目的是什么?
通过两表分析可知,共有282人参与调查,缺失3人,存款目的应答次数837次,可以看出这一选项是多选。
其中,买房或建房的选择有178人选择,占总选项数的21.3%;
其次是得利息,有119人选择,占14.2%,由此可知居民存款的最主要目的是为了买房或建房,其次是得利息。
3、(13分)为了解文化程度对职称的影响,对20名职工进行了调查并进行了列联分析,结果如下表所示:
职称*文化程度交叉制表
文化程度
1.00
2.00
3.00
4.00
职称
1
计数
2
期望的计数
1.5
1.2
2.1
6.0
职称中的%
33.3%
100%
文化程度中的%
40.0%
28.6%
50.0%
30.0%
总数的%
10.0%
7
1.75
1.4
2.45
7.0
14.3%
100.0%
25.0%
35.0%
5.0%
3
42.9%
20.0%
15.0%
5
4
20
5.0
4.0
卡方检验
值
df
渐进Sig.(双侧)
Pearson卡方
3.211
.782
似然比
4.325
.633
线性和线性组合
.016
.900
有效案例中的N
(1)补充表中空缺的计算结果(结果保留1位小数);
(2)分析文化程度对职称是否有影响。
通过分析表一和表二,我们可以先建立原假设:
文化程度对职称没有影响;
再建立备择假设:
文化程度对职称有影响。
从卡方检验表中可以看出,设显著水平α=0.05,由于卡方检验的概率p-值都大于0.05,所以接受原假设,即文化程度对职称没有影响。
从交叉制表中也可以看出,文化程度为4而职称为3的占总数的14.3%,而文化程度为1职称为3的同样占总数的14.3%,可知文化程度对职称没有影响。
4、(29分)数据文件“广告地区与销售额.sav”,是某企业在制订某商品的广告策略时,收集的该商品在不同地区采用不同广告形式促销后的销售额数据。
请完成以下问题:
主体间因子(表4-1)
值标签
广告形式
报纸
36
广播
宣传品
体验
地区
12
5.00
6.00
7.00
8.00
9.00
10.00
11.00
12.00
主体间效应的检验(饱和模型)(表4-2)
因变量:
销售额
源
III型平方和
均方
F
Sig.
校正模型
(12064.639)
(47)
(256.695)
1.764
.010
截距
647756.694
(647756.694)
4451.724
.000
x1
5189.361
(3)
(1729.787)
(11.888)
x2
2660.306
(11)
(241.846)
(1.662)
.094
x1*x2
4214.972
(33)
(127.726)
(0.878)
.657
误差
(13968.667)
96
(145.507)
总计
(673790)
(144)
校正的总计
26033.306
(143)
主体间效应的检验(非饱和)(表4-3)
(7849.667)
(14)
(560.691)
3.978
(1)
4595.374
(5189.361)
(12.272)
(2660.306)
(1.716)
.077
(18183.639)
(129)
(140.959)
(26033.306)
误差方差等同性的Levene检验(表4-4)
df1
df2
.884
47
.675
对比结果(K矩阵)(表4-5)
广告形式简单对比a
因变量
级别1和级别4
对比估算值
-13.861
假设值
差分(估计-假设)
标准误差
2.798
差分的95%置信区间
下限
-19.398
上限
-8.324
级别2和级别4
-4.417
.117
-9.953
1.120
级别3和级别4
1.556
.579
-3.981
7.092
a.参考类别=4
多个比较(表4-6)
LSD
(I)广告形式
(J)广告形式
均值差值(I-J)
95%置信区间
-9.4444*
2.79840
.001
-14.9811
-3.9077
-15.4167*
-20.9534
-9.8800
-13.8611*
-19.3978
-8.3244
9.4444*
3.9077
14.9811
-5.9722*
.035
-11.5089
-.4355
-4.4167
-9.9534
1.1200
15.4167*
9.8800
20.9534
5.9722*
.4355
11.5089
1.5556
-3.9811
7.0923
13.8611*
8.3244
19.3978
4.4167
-1.1200
9.9534
-1.5556
-7.0923
3.9811
*均值差的显著性水平为0.05
(1)请填写表4-2和表4-3中空缺部分的数据结果(结果保留3位小数);
(2)请根据表格数据说明以上分析是否满足方差分析的前提,并说明理由;
通过课本知识,我们可知方差分析是通过推断控制变量各水平下观测变量的总体分布是否有显著差异来实现分析目标的。
故我们可以设立原假设原假设:
不同地区的销售的总体方差没有显著差异;
再设立备择假设:
不同地区的销售的总体方差有显著差异。
从4-4Levene检验表中可以看出,不同广告形式下销售额的方差齐性检验的检验统计量的观测值为0.884,概率P-值为0.675。
如果显著性水平a为0.05,小于概率P-值,因此不拒绝原假设,认为不同地区的销售额的总体方差没有显著差异,满足方差分析的前提。
(3)分析广告形式、地区以及广告形式和地区的交互作用是否对商品销售额产生影响;
本题以多因素方差分析进行研究,其中以广告形式,地区为控制变量,销售额为观测变量。
我们可以设立原假设为:
不同广告形式没有对销售额产生显著影响;
不同地区的销售额没有显著影响;
广告形式和地区对销售额没有产生显著的交互影响。
(x1:
广告形式;
x2:
地区;
x1*x2:
广告形式和地区)
从表4-2中可以看出:
第一列是对观测变量总方差分析说明,第二列是观测变量变差分析结果,第三列是自由度,第四列是方差,第五列是F检验统计量的观测值,第六列是检验统计量的概率p-值。
x1,x2,x1*x2的F检验统计量的值分别为11.888,1.662,0.878,对应的概率p值分别为0,0.094,0.657。
如果显著性水平α为0.05,而x1的概率p-值小于α,所以拒绝原假设,认为不同广告形式对销售额有影响;
而x2,x1*x2分别对应的概率p-值大于α,不应拒绝原假设,认为不同地区对销售额没有显著影响,广告形式和地区对销售额没有产生交互作用。
(4)分析表4-5(对比结果);
表4-5分别显示了广告形式前三个水平下销售额的均值检验结果。
第一种广告形式下的销售额的均值与检验值得差为-13.861,标准误为2.798,t检验统计量的概率p-值为0.000(近似为0),差值的95%置信区间的下限和上限分别为-19.398和-8.324,如果显著水平α=0.05,则概率p-值小于α,所以第一种广告形式下的销售额的均值与检验值间存在显著差异,明显低于总体水平。
同理,按照第一种方式分析可知,第二种广告形式下的销售额也明显低于总体水平,而第三种广告形式下的销售额的明显高于总体水平。
三种广告形式产生的效果有着显著差异。
(5)分析表4-6(多个比较),并说明哪种广告形式能获得理想的销售业绩.
表4-6分别显示了两两广告形式下销售额均值检验的结果,且采用的是LSD检验方法。
如果显著水平α为0.05,在LSD方法中,报纸广告与广播广告,宣传品广告和体验广告的效果均有显著差异,概率p-值分别为0.001,0.000,0.000(皆接近0)。
再分析其他的对比可以发现,宣传品广告和体验广告的效果没有显著差异,概率P-值为0.579。
由以上分析可知,如果要获得理想的销售业绩,不宜采用宣传品的形式,可以从报纸、广播和体验中选择一种低成本或操作性强的广告。
5、(10分)为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,见数据文件“高校科研研究.sav”。
(1)绘制投入的具有高级职称的人数与立项课题数、获奖数之间的散点图,并分析它们之间的线性关系。
由该简单3D散点图可以看出,具有高级职称的人数与立项课题数、获奖数之间的点大多数都分布在一条直线上,故可以认为三者之间存在线性关系。
(2)由于立项课题数和获奖数都会受到投入的具有高级职称的人数的影响,试分析立项课题数和获奖数的相关关系。
建立原假设为课题数和获奖数不相关,备择假设为课题数和获奖数相关。
从上表中可以看出,课题总数与获奖数的简单相关系数为0.661,说明两者之间存在正的强相关性。
其相关系数检验的概率p-值为0.000近似为0,因此说明当显著性水平α=0.05或0.01时,应拒绝原假设,即课题数和获奖数存在相关关系。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析 数据 分析
![提示](https://static.bingdoc.com/images/bang_tan.gif)