书签分享收藏举报版权申诉 / 18

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 统计学软件及应用实验11多因素方差分析模型.docx

统计学软件及应用实验11多因素方差分析模型.docx

文档编号：13867166
上传时间：2023-06-18
格式：DOCX
页数：18
大小：2.66MB

《统计学软件及应用实验11多因素方差分析模型.docx》由会员分享，可在线阅读，更多相关《统计学软件及应用实验11多因素方差分析模型.docx（18页珍藏版）》请在冰点文库上搜索。

统计学软件及应用实验11多因素方差分析模型.docx

统计学软件及应用实验11多因素方差分析模型

《统计学软件及应用》上机试验报告

试验名称：

实验11多因素方差分析模型

成绩：

姓名

专业

学号

试验日期

试验地点

试验目的与要求

一、实验目的：

掌握单因素方差分析的使用

二、实验要求：

1.重点掌握：

单因素方差分析统计原理

2.掌握：

单因素方差分析模型表达式入门

3.熟悉：

两两比较的方法（LSD法、Scheffe法、S-N-K法）

试验原理

第十节单因素方差分析

10.1统计原理

用于完全随机设计的多个样本均数间的比较，其统计推断是推断各样本所代表的各总体均数是否相等。

完全随机设计（COMPLETELYRANDOMDESIGN）不考虑个体差异的影响，仅涉及一个处理因素，但可以有两个或多个水平，所以亦称单因素实验设计。

在实验研究中按随机化原则将受试对象随机分配到一个处理

因素的多个水平中去，然后观察各组的试验效应；在观察研究（调查）中按某个研究因素的不同水平分组，比较该因素的效应。

10.2模型表达式入门

假设现在希望描述某个人群的月收入状况，那么根据统计学知识，均数能够表示集中趋势，标准差能够表示离散趋势，则任何一位受访者i的月收入Xi的表达式应为：

显然，这里的的εi应当服从正态分布，其均数为0，标准差为相应总体标准差。

在只有样本信息时，样本均数和标准差就是上述参数的最佳估计值。

现在希望比较三种职业的月收入有无差异，这三类职业分别是医生、律师和软件工程师。

如果我们仍然希望能够对每一个个体的数据加以表达，那么应为

将上面三个式子可以合并如下：

为了进一步分析的方便，一般都会寻找一个均数的参照水平，将其余组的平均水平与之相比表达为：

显然，这样的组合会有许多种，因此模型在实际分析的时候往往会加上一些限制条件，比如假设参照水平是最后一个组的均数，这被称为拟合的约束条件。

如果职业1和职业2的平均收入不相等，则应当有α1≠α2，H0:

α1=α2

如果三种职业的平均收入无差异，则应当有α1=α2=α3=0，此时如果采用适当的参照水平，就有H0：

αi＝0，H1：

至少有一个αi≠0。

10.3分析实例

现希望比较四种胶合板的耐磨性，分别从这四个品牌的胶合板中抽取了5个样品，在相同的转速下磨损相同时间，测量其被磨损的深度（mm），现希望对此进行分析，数据见veneer.sav。

（1）选择分析——一般线性模型——单变量；

（2）将“磨损深度”选为因变量，考虑到磨损深度与地铁品牌有关，故将“地铁品牌”选为固定因子；

（3）得到如下两张表格。

第一张表格说明品牌有ABCD四个，每个品牌有五个样本。

a.R方=.822（调整后R方=.788）

修正模型与总模型H0假设一致，认为四个品牌磨损深度一致，P值小于0.001,拒绝接受四个品牌耐磨性一样的结论，认为四个品牌耐磨性是不一样的，但是现在不知道哪种和哪种的不一样；截距的H0假设为地板是无法被磨合坏的，磨损深度为0，这是不符合事实的，因此拒绝此假设；brand的假设与总模型的假设是一样的，在单因素分析中此行结果与第一行结果一致。

因为到现在为止只知道四个品牌磨损深度不一致，那么究竟是哪种品牌不一样呢?

这个需要进行两两比较。

10.4两两比较方法

•LSD法：

实际上就是t检验的变形，只是在变异和自由度的计算上利用了整个样本信息，因此仍然存在放大一类错误的问题

•Scheffe法：

当各组人数不相等，或者想进行复杂的比较时，用此法较为稳妥。

但它相对比较保守

•S-N-K法：

是运用最广泛的一种两两比较方法。

它采用StudentRange分布进行所有各组均值间的配对比较。

该方法保证在H0真正成立时总的α水准等于实际设定值，即控制了一类错误

方差不齐时的两两比较方法：

一般认为是Games-Howell法稍好一些，但最好直接使用非参数检验方法

（1）重新打开对话框，选择——事后比较，将brand的选入检验项；

（2）选择LSD法，依次确定；

LSD法：

四个大格分别以ABCD为参照，可以看出D品牌与所有的品牌都有差异，A品牌与B品牌是没有差异的；

（3）选择S-N-K法：

依次确定；

S-N-K法：

按均数的高低从低到高排列，在同一个子集中出现的是没有差别的，在这里AB品牌是没有差异的，P值为0.926，C是最不耐磨的，D是最耐磨的。

10.5适用条件

不同水平下，各总体均值服从方差相同的正态分布。

所以方差分析就是研究不同水平下各个总体的均值是否有显著的差异。

（1）检验方差齐性：

重新打开对话框——选项——方差齐性检验——继续——确定；

（2）如果方差不齐，选择比较平均值——单因素检验；将磨损深度选入因变量，由于因子只能是数值型变量，故要将地铁品牌转换为数值型变量（转换——自动重新编码），然后将此选入因子列表；确定。

课堂试验内容

五、实验步骤（请截图展示详细的操作过程）

PPT例题：

现希望研究四种广告的宣传效果有无差异，具体的广告类型为：

店内展示、发放传单、推销员展示、广播广告。

在本地区共有几百个销售网点可供选择，出于经费方面的考虑，在其中随机选择了18个网点进入研究，各网点均在规定长度的时间段内使用某种广告宣传方式，并记录该时间段内的具体销售额。

为减小误差，每种广告方式在每个网点均重复测量两次。

数据见ranavona.sav。

主体间因子

值标签

个案数

广告类型

1.00

店内展示

36

2.00

发放传单

36

3.00

推销员展示

36

4.00

广播广告

36

销售点

1.00

8

2.00

8

3.00

8

4.00

8

5.00

8

6.00

8

7.00

8

8.00

8

9.00

8

10.00

8

11.00

8

12.00

8

13.00

8

14.00

8

15.00

8

16.00

8

17.00

8

18.00

8

误差方差的莱文等同性检验a

因变量:

销售额

F

自由度1

自由度2

显著性

1.195

71

72

.226

检验“各个组中的因变量误差方差相等”这一原假设。

a.设计：

截距+adstype+area

主体间效应检验

因变量:

销售额

源

III类平方和

自由度

均方

F

显著性

截距

假设

642936.694

1

642936.694

1179.661

.000

误差

9265.306

17

545.018a

adstype

假设

5866.083

3

1955.361

21.789

.000

误差

11037.917

123

89.739b

area

假设

9265.306

17

545.018

6.073

.000

误差

11037.917

123

89.739b

a.MS（area）

b.MS（误差）

期望均方a,b

源

方差成分

变量（area）

变量（误差）

二次项

截距

8.000

1.000

截距,adstype

adstype

.000

1.000

adstype

area

8.000

1.000

误差

.000

1.000

a.对于每个源，期望均方=单元格中的系数总和*方差成分+“二次项”单元格中涉及效应的二次项。

b.期望均方基于III类平方和。

估算值

因变量:

销售额

广告类型

平均值

标准误差

95%置信区间

下限

上限

店内展示

56.556

1.579

53.430

59.681

发放传单

73.222

1.579

70.097

76.347

推销员展示

66.611

1.579

63.486

69.736

广播广告

70.889

1.579

67.764

74.014

成对比较

因变量:

销售额

（I）广告类型

（J）广告类型

平均值差值（I-J）

标准误差

显著性b

差值的95%置信区间b

下限

上限

店内展示

发放传单

-16.667*

2.233

.000

-22.654

-10.679

推销员展示

-10.056*

2.233

.000

-16.043

-4.068

广播广告

-14.333*

2.233

.000

-20.321

-8.346

发放传单

店内展示

16.667*

2.233

.000

10.679

22.654

推销员展示

6.611*

2.233

.022

.624

12.599

广播广告

2.333

2.233

1.000

-3.654

8.321

推销员展示

店内展示

10.056*

2.233

.000

4.068

16.043

发放传单

-6.611*

2.233

.022

-12.599

-.624

广播广告

-4.278

2.233

.346

-10.265

1.710

广播广告

店内展示

14.333*

2.233

.000

8.346

20.321

发放传单

-2.333

2.233

1.000

-8.321

3.654

推销员展示

4.278

2.233

.346

-1.710

10.265

基于估算边际平均值

*.平均值差值的显著性水平为.05。

b.多重比较调节：

邦弗伦尼法。

单变量检验

因变量:

销售额

平方和

自由度

均方

F

显著性

对比

5866.083

3

1955.361

21.789

.000

误差

11037.917

123

89.739

F检验广告类型的效应。

此检验基于估算边际平均值之间的线性无关成对比较。

销售额

S-N-Ka,b

广告类型

个案数

子集

1

2

3

店内展示

36

56.5556

推销员展示

36

66.6111

广播广告

36

70.8889

发放传单

36

73.2222

显著性

1.000

.058

.298

将显示齐性子集中各个组的平均值。

基于实测平均值。

误差项是均方（误差）=89.739。

a.使用调和平均值样本大小=36.000。

b.Alpha=.05。

解读：

按照销售额对广告类型进行排序，店内展示<推销员展示<广播广告<发放传单。

S-N-K法将统计量分为三子集，其中推销员展示和广播广告为同一子集，即认为推销员展示与广播广告之间是没有统计学差异的，推销员展示与广播广告的相关性为0.058。

广播广告与发放传单也为同一子集,即认为广播广告与发放传单之间是没有统计学差异的，二者之间的相关性为0.298.综合分析，可得到结论，发放传单的销售额最高，其次是广播广告和推销员展示，运用店内展示所获得的销售额最低。

结论：

依据销售额的平均值，可得到结论，发放传单的宣传效果最好，其次是广播广告和推销员展示，店内展示的宣传效果最差。

例2如何按随机区组设计，分配5个区组的15只小白鼠接受甲、已、丙三种抗癌药物？

方法：

先将小白鼠的体重从轻到重编号，体重相近的3只配成一区组，然后在随机数字表中任选一行一列开始的2位数作为一个随机数，在每个区组内将随机数按大小排序，各区组中内序号为1的接受甲药，序号为2的接受已药，序号为3的接受丙药。

某研究者采用随机区组设计进行实验，比较三种抗癌药物对小白鼠肉瘤的抑制效果，以肉瘤的重量为指标，问三种不同药物的抑瘤效果有无差别？

主体间因子

个案数

药品类型

A

5

B

5

C

5

误差方差的莱文等同性检验a

因变量:

测量值

F

自由度1

自由度2

显著性

1.293

2

12

.310

检验“各个组中的因变量误差方差相等”这一原假设。

a.设计：

截距+药品类型

主体间效应检验

因变量:

测量值

源

III类平方和

自由度

均方

F

显著性

修正模型

.228a

2

.114

4.489

.035

截距

3.092

1

3.092

121.738

.000

药品类型

.228

2

.114

4.489

.035

误差

.305

12

.025

总计

3.625

15

修正后总计

.533

14

a.R方=.428（调整后R方=.333）

药品类型

因变量:

测量值

药品类型

平均值

标准误差

95%置信区间

下限

上限

A

.614

.071

.459

.769

B

.434

.071

.279

.589

C

.314

.071

.159

.469

测量值

药品类型

个案数

子集

1

2

S-N-Ka,b

C

5

.3140

B

5

.4340

A

5

.6140

显著性

.257

.099

图基HSDa,b

C

5

.3140

B

5

.4340

A

5

.6140

显著性

.481

.216

雪费a,b

C

5

.3140

B

5

.4340

A

5

.6140

显著性

.512

.243

将显示齐性子集中各个组的平均值。

基于实测平均值。

误差项是均方（误差）=.025。

a.使用调和平均值样本大小=5.000。

b.Alpha=.05。

解读：

按照肉瘤测量值大小，C

S-N-K法将统计量分为两子集，CB、AB，C药品与B药品的相关性为0.257。

A药品与B药品的相关性为0.099.图基HSD法将统计量分为两子集，CB、BA,C药品与B药品的相关性为0.481，A药品与B药品的相关性为0.216.雪费法将统计量分为两子集，C药品与B药品的相关性为0.512,A药品与B药品的相关性为0.243.综合三种方法可得到结论，C药品抑制效果最好，其次是B药品，A药品的抑制效果最差。

结论：

依据肉瘤测量值的平均值，ABC三种药品之间有显著性差别。

可以看出C药品的抑制效果最好，B药品的抑制效果其次，A药品的抑制效果最差。

课堂试验结论