SAS整理下之方差分析.docx
- 文档编号:14528507
- 上传时间:2023-06-24
- 格式:DOCX
- 页数:16
- 大小:548.24KB
SAS整理下之方差分析.docx
《SAS整理下之方差分析.docx》由会员分享,可在线阅读,更多相关《SAS整理下之方差分析.docx(16页珍藏版)》请在冰点文库上搜索。
SAS整理下之方差分析
六、方差分析
1.单因素方差分析
用INSIGHT进行分析
1)整理所给数据,创立数据集。
(在方差分析中,这第一步是非常重要的。
我感觉,做单因素分析时创立的数据集中只有两列:
一列是代表分类变量的,即科目,行业,编号等等,一定要用列名型;另一列是代表分析变量的,即所需要分析的具体数据,即分数,次数等等,一定要用区间型!
!
大家建完数据集之后自己可以检查下哈!
!
)
2)在INSIGHT模块中打开数据集;
3)选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(XY)”对话框中按图选择分析变量;
注意:
X中放分类变量,即列名型;Y中放分析变量,即区间型!
!
4)单击“OK”按钮,得到分析结果。
5)结果分析:
第一张表提供拟合模型的一般信息:
第二张表为列名型变量信息;
第三张表提供参数信息,并且约定,P_2、P_3、P_4、P_5分别标识变量(也称哑变量)。
第四张表给出响应变量均值关于自变量不同水平的模型方程
第五张表给出模型拟合的汇总信息,其中:
R-Square(R2)是判定系数(coefficientofdetermination),阐明了自变量所能描述的变化(模型平方和)在全部变差平方和中的比例,它的值总在0和1之间,其值越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。
AajR-Sq(校正R2)是类似于R2的,但它随模型中的参数的个数而修正。
第六张为方差分析表。
从方差分析表可以看出,p值小于0.05(显著水平),所以拒绝原假设,即不同类别之间有显著差异;如果p值大于0.05,则不能拒绝原假设,不同类别之间无显著差异。
第七张表提供III型检验,它是方差分析表的细化,给出了各因素的平方和及F统计量,因为本例是单因素的,所以这一行与上图的“Model”一行相同。
第八张为参数估计表,其中有关于不同行业下投诉次数差异的估计和检验:
1)根据标识变量的定义,Intercept后的估计47.4是对应于旅游业投诉次数的均值,其后的t检验是检验这一均值是否为0。
这里p值<0.0001<0.05=α,故显著非0。
2)航空后的估计-12.4是航空业与旅游业投诉次数均值之差的估计值,其后的t检验也是检验这两个投诉次数均值之差是否为0。
由于p值的绝对值为0.1313>0.05,所以航空业与旅游业的被投诉次数没有显著差异的。
其它分析类似。
6)检验模型假定:
不要忘了哦!
!
为了验证残差为正态分布的假定,回到数据窗口。
可以看到R_TOUSU(残差)和P_TOUSU(预测值)已加到数据集之中,下面用Distribufion(Y)来验证残差的正态性。
1)选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”;
2)在打开的“Distribution(Y)”对话框中选定分析变量:
R_TOUSU;单击“OK”按钮;
3)选择菜单“Curves(线)”→“TestforDistribution(分布检验)”;在打开的“TestforDistribution”对话框中直接单击“OK”按钮。
在检验结果的“TestforDistribution”表中看到,p值大于0.05,不能拒绝原假设,表明可以认为残差是正态分布的;若p值小于0.05,则拒绝原假设,标明残差不是正态分布的。
用“分析家”作单因素方差分析
1)在“分析家”中,打开数据集;
注意:
建立数据集的方法同INSIGHT,这里就不重复了!
2)选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“One-WayANOVA(单因素方差分析)”,打开“One-WayANOVA”对话框;
3)选中分类变量,单击“Independent”按钮,将其移到“Independent(自变量)”框中;选中分析变量,单击按钮“Dependent”,将其移到“Dependent(因变量)”
4)为了检验方差分析中关于方差齐性的假定,单击“Tests”按钮,打开“One-WayANOVA:
Tests”对话框,选中“Testsforequalvariance”栏下的“levene'stest”复选框(常用),如图左,单击“OK”按钮返回
5)单击“Plots”按钮,打开“One-WayANOVA:
Plots”对话框,可以选择图形类型,如选中“Typesofplots”栏下的“Box-&-whiskerplot”复选框,如图右,单击“OK”按钮返回;再次单击“OK”按钮。
6)结果分析:
结果分为五个部分,第一部分是因素水平的信息,可以看到只有一个分类变量因素,其中包含着几个水平,就是我们分类变量体现的几个种类。
第二部分就是经典的方差分析表。
由于这里p值小于0.05(显著水平),所以模型是显著的,即因素对指标有显著影响。
第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方R2,代表总变差中能被模型解释的比例,第二个是指标的变异系数,第三个是根均方误差,第四个是均值。
第四部分是方差分析表的细化,给出了各因素的平方和及F统计量,因为是单因素所以这一行与上面的“Model(模型)”一行相同。
第五部分是对方差齐性的假定检验的结果。
结果表明使用Levene's检验法的p值>0.05时,不同水平下观测结果的方差无显著差异;当p值<0.05时,方差有显著差异。
图形分析:
在分析家窗口的项目管理器中双击“BoxplotofTOUSYbyHANGYE”选项,得到响应变量关于自变量各水平的盒形图
用编程方法作单因素方差分析
1.ANOVA过程和GLM过程的简介
(1)ANOVA过程
ANOVA过程的一般格式包含许多选项,其中最为常用的为如下格式:
–PROCANOVADATA=<数据集>;
–CLASS<自变量列表>;
–MODEL<因变量名>=<自变量表达式>[/<选项列表>];
–MEANS<自变量表达式>[/<选项>];
–RUN;
其中CLASS语句用来指定样本分组的分类变量,CLASS语句是必需的,而且必需位于MODEL语句之前;
MODEL语句给出模型表达式,可以用来表示三种不同的效应模型:
1)主效应模型:
y=abc
2)交互效应模型:
y=abca*ba*cb*ca*b*c
3)嵌套效应模型:
y=abc(ab)
同一MODEL语句中三种效应可以混合使用。
MEANS语句指定ANOVA过程计算自变量各水平下因变量的均值、标准差,并进行组间的多重比较
(2)GLM过程
–PROCGLMDATA=<数据集>[ALPHA=
];
–CLASS<自变量列表>;
–MODEL<因变量名>=<自变量表达式>[/<选项列表>];
–MEANS<自变量表达式>[/<选项>];
–RUN;
一般地,ANOVA过程中涉及的所有语句都包含在GLM过程所涉及的语句中,其用法和功能也都是基本相同的。
举例说明:
procanovadata=Mylib.xfzts;
classhangye;分类变量!
!
modeltousu=hangye;等号前是分析变量,等号后是分类变量!
!
run;
»procGLMdata=Mylib.xfzts;
»classhangye;
»modeltousu=hangye;
»run;
两种编程GLM包含ANOVA,所以建议大家用GLM比较齐啊,但是怕找不到的话,记ANOVA也行!
!
!
2.双因素方差分析
用INSIGHT方法
不存在交互作用的双因素
1)整理数据,创立数据集
(这种类型的数据集建立后是三列,与单因素基本相同,只不过多一列列名型变量即分类变量而已,大家可以参照单因素的创建数据集!
!
最后检查要是三列哦!
!
)
2)在INSIGHT模块中打开数据集
(在检查下是不是两个列名型,一个区间型变量啊!
!
)
3)选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(XY)”对话框中选择数值型变量作因变量,分类型变量作自变量(即分类变量进入x,分析变量进入Y,再说直白点就是,两列的那个放到X的大框子里面,一列那个放到Y的小框子里面!
!
);单击“OK”,得到分析结果
4)分析结果
1)第一张表提供了模型的一般信息;
第二张表列举了作为分类变量的水平的信息即分类情况;
第三张参数信息表给出了标识变量P_i的定义
第四张表给出了方差分析模型,利用参数信息表中标识变量的定义可以推算出在各个因素不同水平下分析变量均值的信息;
第五张拟合汇总表中给出分析变量的均值、判定系数R2等
在第六张方差分析表中,检验模型显著性的F统计量相应的p值小于0.05=α,所以拒绝分类变量对分析变量无显著影响的假设,即模型是显著的;
在模型显著的情况下常需要进一步分析两个因素是否都有显著影响或者只有一个因素是显著的,这时就需要用到第七张表提供的信息。
在III型检验表中,进一步将模型平方和分解为属于分类变量的平方和。
在这里两个因素的p值都小于0.05,再一次说明了这两个因素对分析变量都有显著影响;如果有一个P值<0.05,则该因素不是显著影响!
!
第八张是模型的参数估计表,参数估计表也是根据标识变量的定义,对参数或对各因素不同水平下的参数之差进行估计和检验。
可以根据t统计量的p值来检验不同水平下均值是否有显著差异。
5)考察模型假定:
在显示窗的底部有一个残差和预测值的散点图,可以像单因素分析一样考察残差分布的正态性假定。
存在交互作用的双因素方差分析
前两步与上一个相同!
!
3)选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(XY)”对话框中选择数值型变量作因变量,分类型变量作自变量,如图所示。
为了考虑两个分类变量的交互作用,同时选上两个变量,然后单击“Cross”按钮,注意到在右框中多了a*b一行(这种类型最关键的地方!
!
)
4)单击“OK”按钮,得到分析结果
5)分析结果
在方差分析表中,检验模型显著性的F统计量,相应的p值为0.0001<0.05,所以模型的效应是显著的;如果p值>0.05,模型效应就不显著。
在Ⅲ型检验表中,将模型平方和分解为两个因素和它们的交互作用,表中看出,检验b变量效应的p值为0.1363>0.05,所以从总体上看b变量的效应不显著;检验a变量效应的p值为<0.0001<0.05,所以变量a的效应是显著的;检验两者交互作用的p值为0.0006<0.05,所以交互作用的影响也是显著的。
在模型方程和参数估计表中也提供了双因素不同水平组合下因变量y均值的估计和比较的信息。
因为这里是考虑存在交互作用的情形,所以较为复杂一些。
(本人认为这张图没啥用,所以就没有粘)
用“分析家”作双因素方差分析
不存在交互作用的双因素方差分析
1)在“分析家”中,打开数据集;制表方式如上面,就不多说了
2)选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“FactorialANOVA(因素方差分析)”,打开“FactorialANOVA”对话框;
发现了么,还是因素多的放到大框子,少的放到小框子,这是我自己总结的,不代表官方意见啊,大家自己也可以总结下!
!
若要得到用图形表示的两个因素不同水平下均值和标准差的信息,可以单击“Plots”按钮,在打开的“FactorialANOVA:
Plots”对话框中,选中“Meansplots”栏下的“PlotsDependentMeansforMainEffects(作主效应响应均值图)”。
3)分析结果:
如同刚才在INSIGHT中的,要是想不起来,自己再看一眼吧!
!
“MeansPlots”下的两个选项,得到响应变量关于自变量a、b的均值图如图5-31所示。
图中描述了变量a、b不同水平下的均值和标准差的图形,从中可以对不同水平下均值的差异有一个直观的了解。
存在交互作用的双因素方差分析
1)在“分析家”中,打开数据集;数据集建立不多说了啊
2)选择菜单“Statistics”→“ANOVA”→“FactorialANOVA”,打开“FactorialANOVA”对话框,按图选择参数与图形;重点来了!
!
注意红框子的地方哦,因为是交互作用的,所以千万不要忘了还有a*b这么个东西,最后别忘了改成2se啊~~
后面的分析跟前面都是一样的,懒了就不写了,大家可以自己看前面哈!
!
用GLM过程进行双因素方差分析(万能的编程啊~~推荐!
!
)
不考虑交互作用
»procglmdata=Mylib.xjpf;
»classab;
»modelstren=ab;
»run;
跟单因素比,就多一个变量而已,多方便!
!
考虑交互作用
»procglmdata=Mylib.xjpf;
»classab;
»modelstren=aba*b;
»run;
就比不考虑的多一个a*b,这比分析家和INSIGHT省多少心啊~~
大家注意只在model语句中加~~
3.均值估计与多重比较
对于单因素方差分析的均值比较
(1)分析设置
1)在“分析家”中,打开数据集
2)选择菜单“Statistics”→“ANOVA”→“One-WayANOVA”,打开“One-WayANOVA”对话框,分类变量进“Independent”,分析变量进“dependent”;
3)单击“Means(均值)”按钮,在打开的“One-WayANOVA:
Means”对话框中选中“Comparisons(比较)”选项卡。
从第一个红圈的地方可以下拉出很多比较法,大家选好了,只要按一下ADD,就会加到下面的框子里面了!
!
4)单击两次OK
(2)分析结果
1)使用Tukey'sHSD检验法的结果
分类就看前面A和B,A的就是一类的,他们和B的那一类有显著差异!
!
2)使用Dunnett'st-test检验法的结果
最显著的那个后面标了***,很明显
3)使用Fisher最小显著差异(LSD)检验法的结果
这个跟刚才那个A\B类相同!
!
对于多因素方差分析的均值比较
(1)分析设置
1)在“分析家”中,打开数据集Mylib.xwtx;
2)选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“FactorialANOVA(因素方差分析)”,打开“FactorialANOVA”对话框;
3)选中变量a、b,单击“Independent(自变量)”按钮,将其移到“Independent”框中;选中变量y,单击按钮“Dependent(因变量)”,将其移到“Dependent”框中
4)考虑因素间的交互作用:
单击“Model”按钮,打开“FactorialANOVAModel”对话框。
单击“StandardModels”按钮,在弹出的菜单中选择“Effectsupto2-wavinteractions”项,表示交互作用的a*b加入了模型效应栏,单击“OK”按钮返回
(这一步是重点,这是针对有交互作用的,若果没有交互作用,就不要选出来a*b)
5)单击“Means(均值)”按钮,在打开的“One-WayANOVA:
Means”对话框中选中“Comparisons(比较)”选项卡。
在“Comparisonmethod”下拉列表中选择比较法Fisher'sLSD,在“Maineffects(主效应)”栏中选择变量a、b,单击“Add”按钮,加到主效应框中。
再在“Comparisonmethod”下拉列表中选择比较法Tuck'sHSD,在“Maineffects(主效应)”栏中选择变量a,单击“Add”按钮,加到主效应框中
同刚才那些步骤了。
。
。
6)单击“OK”,返回,再单击“OK”得到分析结果
分析过程也同上了。
。
。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 整理 方差分析