SPSS数据的参数检验和方差分析.ppt
- 文档编号:18507814
- 上传时间:2023-08-19
- 格式:PPT
- 页数:101
- 大小:1.99MB
SPSS数据的参数检验和方差分析.ppt
《SPSS数据的参数检验和方差分析.ppt》由会员分享,可在线阅读,更多相关《SPSS数据的参数检验和方差分析.ppt(101页珍藏版)》请在冰点文库上搜索。
zf,参数检验单样本t检验两独立样本t检验两配对样本t检验方差分析单因素方差分析多因素方差分析,参数检验和方差分析,zf,2zf,参数检验是推断统计的重要组成部分。
推断统计是根据样本数据推断总体特征的方法,它在对样本数据描述的基础上,以概率的形式对统计总体的未知数量特征(如均值、方差等)进行表述。
一是当总体分布已知(如总体为正态分布)的情况下,根据样本数据对总体分布的统计参数(如均值、方差)等进行推断;(参数检验)二是当总体分布未知的情况下,根据样本数据对总体的分布形式或特征进行推断。
(非参数检验),zf,3zf,假设检验的基本问题,假设检验的基本原理小概率事件原理,小概率思想是指小概率事件(P0.01或P0.05等)在一次试验中基本上不会发生。
利用反证法思想,先提出假设H0,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。
zf,4zf,假设检验的步骤
(1)提出一个原假设和备择假设
(2)确定检验统计量(3)确定显著性水平(4)确立置信区间(5)结论,zf,5zf,例:
现对某地区成年女性的平均身高进行检验,看是否达到160cm。
随机抽样了50个样本,抽样样本均值为162。
(1)提出零假设(nullhypothesis)和备择假设(alternativehypothesis)H0:
u=160cmH1:
u160cm,如何对此假设进行检验呢?
通过随机抽样,从样本资料中找充分证据去拒绝或接受H0,zf,6zf,
(2)设定显著性水平(如:
设0.05)(3)确定检验统计量:
即选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布。
如:
t、Z统计量(4)确定置信区间假定此例为:
(157,163)(5)结论假定此例中计算得到t1.92,以及t1.92实现的可能性P值为0.06。
在0.05水平下t分布表中的t值为1.96,统计软件输出p-值的位置,有的用“p-value”,有的用significant的缩写“Sig”,zf,7zf,依据t1.92t分布表中的t值为1.96,接受H0,拒绝H1;依据t1.92实现的可能性P值为0.06显著性水平的0.05,也可得到接受H0,拒绝H1的结论;依据样本均值162落在(157,163)这一置信区间,仍可得到接受H0,拒绝H1的结论。
接受H1并不表示H1为真,只是表示样本资料并没有充分证据可以拒绝H1,也可能会发生拒绝正确零假设的错误,即第一类错误接受H0并不表示H0为真,只是表示样本资料并没有充分证据可以拒绝H0,也可能会发生备选假设正确时反而说零假设正确的错误,即第二类错误,zf,8zf,此例中备择假设H1:
u160cm的假设称为双尾检验(Two-tailedTest);如果备选假设为H1:
u160cm或者u160cm为右尾检定(Upper-tailedTest);u160cm为左尾检定(Lower-tailedTest)实际中选择何种备选假设,需根据检验的需要决定。
需要注意的是:
计算机输出结果中的p值是双尾检验的概率。
如果备选假设选择的是单尾检验,则要将计算机给的p值除以2,即取p值的一半。
注意:
zf,9zf,1参数检验,单样本的t检验(One-SampleTTest)两独立样本的t检验(IndependentTwo-SampleTTest)两配对样本的检验(Pair-SampleTTest),zf,10zf,1.1单样本t检验根据样本对其总体均值大小进行检验,假设从总体取出一容量为n的样本,得到均值和标准差s,现要透过样本推断总体均值是否与某给定值(理论值或标准值)有无差别进行检验.记,数据服从正态分布,zf,11zf,总体方差已知,用统计量当零假设成立,则统计量服从正态分布。
检验的拒绝域为总体方差未知用样本方差代替总体方差,用统计量:
当零假设成立,则统计量服从正态分布。
检验的拒绝域为,zf,12zf,zf,13zf,例1:
如果你买了一包标有500g重的一包红糖,你觉得份量不足。
于是你找到监督部门;当然他们会觉得一包份量不够可能是随机的。
于是监督部门就去商店称了50包红糖(数据在sugar.sav);其中均值(平均重量)是498.35g;这的确比500g少,但这是否能够说明厂家生产的这批红糖平均起来不够份量呢?
于是需要统计检验。
zf,14zf,首先,可以画出这些重量的直方图(图1)判断样本是否服从正态分布,zf,15zf,提出假设由于厂家声称每袋500g(标明重量),因此零假设为总体均值等于500g(被怀疑对象总是放在零假设);而且由于样本均值少于500g(这是怀疑的根据),把备选假设定为总体均值少于500g(这种备选假设为单向不等式的检验为单尾检验,)。
即,H0:
u=500H1:
u小于500,zf,16zf,SPSS处理数据:
分析(Analyze)比较均值(Comparemean)单样本t检验(OneSampleTTest),zf,17zf,Spss输出结果:
t=-2.696(也称为t值),同时得到p-值为0.005(由于计算机输出的为双尾检验的p-值,比单尾的大一倍,应该0.010除以2)在0.5的条件下,红糖标记重量为500g是不能接受的,实际上平均起来要少于500g。
zf,18zf,依据调查数据,推断储户总体一次存(取)款金额是否为2000元。
案例分析:
居民储蓄调查数据,zf,19zf,依据调查数据对我国目前保险公司从业人员受高等教育的程度和年轻化程度进行推断。
问题1:
保险公司具有高等教育水平的员工比例的平均值低于0.8。
案例分析:
保险公司人员构成调查数据,zf,20zf,问题2:
保险公司年轻人比例的平均值与0.5无显著差异。
zf,21zf,例3:
某汽车生产厂商要求其生产的汽车刹车直径为322毫米。
其中有8个生产车间。
质量监控中心样本。
(数据见brakes.sav)究竟该厂商生产的刹车是否达标?
其中哪些车间的刹车达标?
哪些车间的刹车不达标?
zf,22zf,
(1)数据拆分:
数据(data)拆分文件(splitfiles),zf,23zf,
(2)单样本T检验的SPSS操作:
分析(Analyze)比较均值(Comparemean)单样本t检验(One-SampleTTest),弹出新对话框,zf,24zf,选择检测变量,设定检测值,选择检测变量:
DiscBrakeDiameter(mm).设定检测值:
322点击Options.,zf,25zf,置信水平设置,缺失值处理,设置置信水平,如90%.设置缺失值的处理.点击Continue.再在点击“One-SampleTTest”对话框点击OK.,当计算时涉及的变量有缺失值,则剔除在该变量上为缺失的样本,剔除所有在任意变量上有缺失值的样本,zf,26zf,(3)结果分析:
one-samplestatistic,描述性统计:
每个车间的样本大小,汽车刹车直径的均值、标准差、均值的标准误。
各车间生产的刹车直径都在322毫米左右。
zf,27zf,One-samplettest,依据此表,我们可做出怎样的结论?
zf,28zf,目的是推断两个样本分别代表的总体均数是否相等。
其假设一般为:
H0:
1=2,即两样本来自的总体均数相等.H1:
12或12,即两样本来自的总体均数不相等.,1.2两样本的t检验根据来自两个总体的独立样本对其总体均值的检验,观测样本独立且是服从正态分布的随机样本,zf,29zf,与已知时构造统计量与未知但相等时构造统计量,计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误,zf,30zf,zf,31zf,例4:
为检测某种药物对攻击性情绪的影响,对100名服药者和150名非服药者进行心理测试,得到相应的某指标。
相应的假设检验问题为:
H0:
1=2H1:
1大于21为第一组的总体均值,而2为第二组的总体均值。
用SPSS处理数据:
分析(Analyze)比较均值(Comparemean)两独立样本t检验(Independent-SamplesTTest),zf,32zf,SPSS输出结果:
注意:
这个输出的前面三列(LevenesTestforEqualityofVariances)为检验这两个样本所代表的总体之方差是否相等(零假设为相等)。
如果显著,即在Sig列中的该Levene检验p-值很小(这里是0.008),说明两总体的方差相等被拒绝。
就应该看两总体方差不等的结果,即最后一行的t检验输出(p-值0.347/2);否则看上面一行的结果。
因为总体方差相同时使用的检验统计量与方差不同时使用的不一样,zf,33zf,结论:
通过计算,t统计量等于0.942,p值为0.1735(输出中的双尾检验p值0.347的一半)。
因此无法拒绝零假设,即服药与未服药的攻击性情绪无差异。
zf,34zf,例5:
某商场的营销部拟对某种信用卡购物促销方式及效果进行评估。
随机抽取了500名持卡消费者。
信用卡购物促销方式之一:
过去三个月消费实施降低利率的方式;方式之二:
采取标准的信用卡购物方式。
(两种方式各有250名消费者)。
(见数据文件:
creditpromo.sav),zf,35zf,
(1)分析的下拉菜单中选择:
分析(Analyze)比较均值(Comparemean)两独立样本t检验(Independent-SamplesTTest),弹出对话框,SPSS操作过程:
zf,36zf,选择检测变量,分组变量选择,分组取值定义,选择检测变量:
$spentduringpromotionalperiod.选择分组变量:
Typeofmailinsertreceived.点击DefineGroups对分组变量的取值进行定义.,zf,37zf,第一组的分组取值,第二组的分组取值,运用分界点进行分组,zf,38zf,
(2)输出结果及分析:
independent-samplesstatistic,该表是描述性统计表:
不同消费方式下样本大小、消费金额的均值、标准差、均值的标准误.该表可看出从样本平均值来看,接受利率优惠的消费者的平均消费要高出接受标准方式的消费者有71美元.,zf,39zf,结论:
因计算的T统计量为-2.26,sig值为0.0240.05,所以可得出接受新的信用卡购物方式的消费者消费金额高出另一种购物方式的71.11美元显著异于0.超市应尽力将新的信用卡购物方式推广.,zf,40zf,配对样本的检验(pairedsamples):
(针对同样的样本)考察实验前后样本均值有无差异。
能够很好地控制非实验因素对结果的影响。
注意:
该方法能够很好地控制非实验因素对结果的影响;但同一样本实验前后并不独立。
1.3配对样本的t检验针对同样的样本实验前后均值的比较,怎么处理?
要消除配对样本相关性影响,处理方法:
用配对样本差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。
故其检验过程与依据样本均数推断总体均数大小的t检验类似。
配对样本差值服从正态分布,zf,41zf,例6:
某减肥茶生产商拟对其生产的新产品的减肥效果进行检验,随机抽取了50个人,考察了50个人减肥前的体重和减肥后的体重。
注意:
每一个人减肥后的重量都和自己减肥前的重量有关。
但不同人之间却是独立的。
令减肥前的重量均值为1,而减肥后的均值为2;这样所要进行的检验为:
H0:
12H1:
1大于2,zf,42zf,也可以把同一样本实验前后两个观测值逐个相减,形成一个由独立观测值组成的样本;然后用单样本检验方法,看其均值是否为零。
在相减之后公式和单样本均值检验无异。
用SPSS处理数据:
分析(Analyze)比较均值(Comparemean)配对样本t检验(Paired-SamplesTTest),zf,43zf,Spss输出结果得到双尾p-值为0.002,这里的单尾p-值于是为0.001.因此减肥后和减肥前相比,平均重量显著要轻。
SPSS输出结果:
减肥前后的体重高度相关,zf,44zf,例7:
某药物生产商欲评估某新药对有心脏病家族病史的病人有无效果。
随机选取了16个病人,服药后观察了6个月。
在这项研究中,着重考察了实验前后病人的weights和triglyceridelevels.(数据文件:
dietstudy.sav.),zf,45zf,
(1)下拉菜单选项:
AnalyzeCompareMeansPaired-SamplesTTest,弹出配对样本对话框,SPSS处理步骤,zf,46zf,选择Triglyceride和FinalTriglyceride作为第一配对变量.选择Weight和FinalWeight作为第二配对变量.点击OK.(置信水平选择Option以系统默认为准),zf,47zf,
(2)结论及分析:
paired-samplesstatistic,均值,样本量,标准差,均值的标准误标准差/,从16个样本的triglyceridelevels指标看到服用新药后,该指标水平将下降14.06.16个样本的weight也平均下降8磅从标准差看服药前后的weight相对指标triglyceridelevels的变异度更大.,zf,48zf,paired-samplescorrelation,服药前后triglyceridelevels指标的相关系数为-0.286,(统计意义上)无显著的相关关系:
从总体看triglyceridelevels服药后降低了,但16个样本该指标上的变化却很不一致,有的没变化,有的反而上升了。
服药前后weight指标的相关系数为0.996,(统计意义上)有非常显著的相关关系:
所有的样本weight都很一致地降低了。
zf,49zf,paired-samplestest,该表是配对样本t检验结果表,给出了实验前后triglyceride差值和实验前后weight的差值的均值、标准差、均值的标准误、置信区间、t统计量、自由度、sig值等,结论:
因为实验前后triglyceridelevel的t统计量为1.2;sig值0.1245(双尾为0.249)0.05;所以,可得出新药对triglyceridelevel无影响。
而实验前后weight的t统计量为11.2;sig值0.0000.05;所以,可认为体重下降8.06绝非偶然,而是新药起了作用。
zf,50zf,如何解决多元多总体的均值检验?
zf,51zf,不同型号的计算机的平均维修时间是相同?
2方差分析,zf,52zf,首先计算各样本平均数若按两个总体平均值比较的检验法,把样本平均数两两组成对:
zf,53zf,将这15对平均数一一进行比较检验计算工作量太大即使每对都进行了比较,并且都以0.95的置信度得出每对均值都相等的结论,但是由此要得出这6个型号的维修时间的均值都相等这一结论的置信度仅是估计的精确性和检验的灵敏度降低其他方法?
zf,54zf,方差分析(analysisofvariance,ANOVA):
又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
方差分析中几个重要概念:
1)观测因素或称为观测变量如:
考察农作物产量的影响因素。
农作物产量就是观测变量。
2)控制因素或称控制变量:
进行试验(实验)时,我们称可控制的试验条件为因素(Factor)。
其中因素变化的各个等级为水平(Level)。
影响农作物产量的因素,如品种、施肥量、土壤等。
zf,55zf,如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验;若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验。
方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影响的变量,zf,56zf,方差分析的基本原理设有r个总体,各总体分别服从,假定各总体方差相等。
现从各总体随机抽取样本。
透过各总体的样本数据推断r个总体的均值是否相等?
:
至少有一组数据的平均值与其它组的平均值有显著性差异。
zf,57zf,分析的思路:
用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个来源:
(1)组内变动(withingroups),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差
(2)组间变动(betweengroups),代表各组平均值关于总平均值的离散程度。
即水平之间(组间)方差即:
SS总=SS组间+SS组内,zf,58zf,消除各组样本数不同的影响-离差平方和除以自由度(即均方差)。
从而构造统计量:
方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义。
零假设否定域:
zf,59zf,方差分析的应用条件
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。
即偏态分布资料不适用方差分析。
对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。
即若组间方差不齐则不适用方差分析。
zf,60zf,一元单因素方差分析:
分析某一个因素A的不同水平是否对某一个观测变量Y产生了显著影响。
一元多因素方差分析:
分析某两个或多个因素的不同水平是否对某一个观测变量Y产生了显著影响。
2.1一元方差分析,zf,61zf,例1:
某饮料生产企业研制出一种新型饮料.饮料的颜色共有四种:
橘黄色、粉色、绿色和无色透明。
这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。
现从地理位置相似、经营规模相仿的五家超市上收集了该种饮料的销售情况。
2.1.1一元单因素方差分析,zf,62zf,问题:
饮料的颜色是否对销售量产生影响?
zf,63zf,其中:
饮料的颜色即是影响因素(控制因素、变量)销售量是观测变量。
在其他条件相同的情况下,上述问题就归结为一个检验问题,即:
zf,64zf,差异的产生来自两个方面:
一方面是由不同颜色的差异造成的,既不同的饮料颜色对销售量产生了影响。
用组间方差表示另一方面是由于抽选样本的随机性而产生的差异,即各颜色内的随机误差,如相同颜色的饮料在不同的商场销售量也不同。
用组内方差表示。
一元单因素方差分析Spss选项:
分析(Analyze)比较均值(CompareMean)单因素ANOVA(One-WayANOVA),zf,65zf,SPSS输出结果:
可看出F值为10.486,P值是0.000。
推断零假设不成立。
表明颜色不同饮料的销量也不同。
zf,66zf,如何用SPSS对方差分析的方差相等要求进行判定?
(因正态分布的要求不是很严格,分析忽略)Spss选项:
在One-WayANOVA中选择Option,选定Homogeneity-ofvariance,zf,67zf,进一步考察:
究竟是哪一个水平对观察变量产生了显著影响,即那种颜色的饮料对销售量有显著影响?
运用单因素方差分析的多重比较检验SPSS窗口中PostHoc选项进行选择。
zf,68zf,zf,69zf,例2:
为了迎合消费者的需求,某音像公司拟推出一张新的DVD专辑.市场营销部分收集不同年龄的消费者群体对新的DVD专辑的评价等相关数据信息。
(见数据文件dvdplayer.sav)从该数据文件我们想知道:
是否不同消费者群体对DVD的评价不一样呢?
32-38岁与39-45岁两个年龄段的消费者全体对DVD的评价是否一样呢?
32岁以下与45岁以上的消费者群体对DVD的评价是否一样呢?
zf,70zf,SPSS的处理过程:
(1)一元单因素方差分析的菜单选择:
分析(Analyze)比较均值(CompareMean)单因素方差分析(One-WayANOVA),弹出One-wayANOVA对话框,zf,71zf,选择TotalDVDassessment作为因变量.选择AgeGroup作为影响因素.点击选项Options按钮.,多重比较检验:
两两比较看哪些水平之间存在均值差异.,先验比较检验:
事先设定因变量在因素的不同不平下是否有差异.,描述性统计量、均值图、缺失值的处理,观测变量(因变量)输入框,影响因素(自变量)输入框,弹出Option对话框,zf,72zf,统计量选择,描述性统计.如:
均值、方差等,固定效应、随机效应模型的标准差、标准误、置信区间等,方差同质性(相等)检验,当F检验方差相等不成立时,用Brown-Forsythe统计量或Welch统计量检验组间均值是否相等,比F检验更可取。
选择均值图Meansplot.点击继续Continue.点击一元单因素对话框中的两两比较PostHoc.,均值示意图可直观看出组间均值差异,弹出双重比较检验对话框,组均值示意图,缺失值处理,zf,73zf,假设组间方差相等时的多重比较检验,假设组间方差不等时的多重比较检验,确定显著性水平,选择方差不等时的TamhanesT2.点击继续Continue.点击一元单因素方差分析中的对比Contrasts按钮.,弹出Contrasts对话框,zf,74zf,第1组系数赋值为0,点击Add.第二组系数赋值为0,点击Add.紧接着,给第3和第4组系数赋值,要使两系数和为0.给第3组赋值-1,点击Add.给第4组系数赋值为1.给第5和第6组赋值为0.点击Next进入下一组先验对比检验.,首先,比较第3和第4个年龄段的消费者群体;其他年龄段的忽略不考虑,赋值为0.,零假设为:
两组无差异,zf,75zf,其次,对第1、2两个年龄段的消费者与第5、6两个年龄段的消费者进行先验对比。
第3和4两个年龄段的消费者不考虑。
给第1组赋值.5,点击Add.给第2组赋值.5,点击Add.分别给第3和第4组赋值为0,点击Add.分别给第5和第6组赋值-.5,点击Add.点击Continue.点击一元单因素对话框中的OK,输出分析结果output.,zf,76zf,
(2)结果分析:
方差齐性(相等)检验,从上表可看出:
各总体方差相等的零假设成立。
因为统计量Levenestatistic为0.574,该统计量实现的可能性sig.值为0.720,说明零假设发生可能性是很大的,我们没有充分的理由拒绝它,由此接受零假设。
zf,77zf,差异表现如何,究竟来自哪儿?
由此表可看出,对DVD的评价的差异主要来自不同年龄的消费者群体的组间差异,因为F统计量为4.601;同时依据sig值0.001,也可说明我们最初的零假设不同年龄群体对DVD的评价无差异发生的可能性为0.001,我们没有充分理由接受它.,方差分析表,zf,78zf,组均值示意图,该图给我们较为直观的印象:
32-45岁的消费者对DVD的评价高于其他消费者群体.若要作更细致和精确的分析,可通过一元方差分析中的先验比较和多重比较来完成。
zf,79zf,对比系数表,检验32-38和39-45两个群体对DVD的评价是否有差异,零假设认为:
二者无差异。
其他年龄段的消费者群体忽略不考虑,所以分别赋值为0;而32-38和39-45两个群体分别赋值-1和1,类似地,若想对比32岁以下和45岁以上的消费者群体对DVD的评价是否有差异,零假设认为二者无差异,所以,分别给18-24、25-31赋值为.5,分别给46-52、53-59赋值为-.5,其他群体不考虑赋值为0。
Thesignificancevaluesforthetestsofthefirstcontrastarebothlarger
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 参数 检验 方差分析