SPSS数据分析第三四讲.ppt
- 文档编号:12750419
- 上传时间:2023-06-07
- 格式:PPT
- 页数:66
- 大小:1.67MB
SPSS数据分析第三四讲.ppt
《SPSS数据分析第三四讲.ppt》由会员分享,可在线阅读,更多相关《SPSS数据分析第三四讲.ppt(66页珍藏版)》请在冰点文库上搜索。
第三讲假设检验与均值比较,假设检验的基本思想,假设检验的思想反证法及小概率原理。
所谓反证法及小概率原理即首先在原假设正确的条件下计算出现该样本或者样本统计量的概率,如果这种事件发生的概率很小,譬如小于5%,那么就拒绝原来的假设,而接受备择假设。
两类错误,“小概率事件在一次试验中几乎不会发生”,但是小概率事件并非是不可能发生,只是其发生的概率很小,并不能完全排斥其发生的可能性。
因而假设检验有可能犯两类错误:
第一类错误:
原假设正确,而错误地拒绝了它,即“拒真”的错误,其发生的概率为犯第一类错误的概率。
第二类错误:
原假设不正确,而错误地没有拒绝它,即“受伪”错误,其发生的概率为犯第二类错误的概率。
显著性值,假设检验一般先对总体的比例、均值或分布做出某种假设,称为原假设;然后计算在该假设成立条件下出现该事件的概率,称为p值,或显著性值。
如果小概率事件发生了,即p,则表明样本不支持原来的假设,应拒绝原假设而接受备择假设;如果该事件发生的概率(或可能性)较大,即p,则不拒绝原假设。
我们用来控制犯第一类错误的概率,即犯该类错误的概率最大为。
假设检验的步骤,1.确定恰当的原假设和备择假设;2.选择检验统计量;3.计算检验统计量观测值发生的概率,即p值;4.给定显著性水平,并作出决策。
如果p,则拒绝原假设,反之,没有理由拒绝原假设。
均值子菜单,均值过程,SPSS的均值过程是描述和分析尺度变量(Scale)的一种有用的方法,可以获得需要分析的变量的许多中心趋势和离散趋势的统计指标,同时它可以对不同的组别或者交叉组别进行比较。
均值过程可以计算一个或多个自变量类别中因变量的子组均值和相关的单变量统计。
也可以从该过程获得单因素方差分析、eta和线性相关检验。
均值过程分析,本书数据文件HourlyWage.sav是对护士工资的调查,它调查了不同岗位的护士,记录了他们的小时工资、工作经验、年龄等指标。
应用SPSS的均值过程分析护士的小时工资、工作经验和工作位置之间的关系。
均值方法操作,【分析】【比较均值】【均值】,均值:
选项,双因素的均值过程分析,在“层1的1”框中,yrsscale;单击【下一张】,把position变量选入“层2的2”框中。
两因素的均值分析报告,Anova和Eta,由于均值过程只对第一层的自变量进行方差分析和线性相关检验,因此两个因素或者两个以上因素的均值分析过程的方差分析结果和单因素一样。
不同的是描述性统计量,多因素的描述性统计量是对于各个交叉组别进行统计。
单样本T检验,单样本T检验即检验某个变量的总体均值和某指定值之间是否存在着显著性差异。
如果是大样本的单样本检验,统计教科书上称为U检验,它采用服从正态分布的U统计量作为检验统计量;如果是小样本并且样本服从正态分布,则采用服从t分布的t统计量进行单样本T检验;否则,采取非参数检验。
T检验稳健性(Robust)较好,如果样本分布偏离正态分布不太严重,也可采用T检验。
T分布和正态分布比较,在大样本情况下,T分布和正态分布密度函数十分接近在大样本情况下,T检验和U检验是等价的,例子,打开数据文件brakes.sav,该数据为某工厂不同机器生产的刹车片直径,已知符合质量标准的刹车片直径应为322mm,现在需要知道哪些机器生产的刹车片直径不符合质量标准。
按照机器号拆分文件,需要对各个机器分别进行检验,因此需要根据机器拆分该数据文件。
打开数据文件brakes.sav,选择【数据】【拆分文件】,单样本T检验,选择【分析】【比较均值】【单样本T检验】,单样本T检验结果,独立样本T检验,两独立样本是指两个样本所来自的总体相互独立,两个独立样本各自接受相同的测量,研究者或分析者的主要目的是分析两个独立样本的均值是否有显著的统计差异比较女性和男性的身高,教育从业者和金融从业者的起始工资等,都是两独立样本的例子。
两独立样本T检验的前提条件,独立性:
两样本所来自的总体互相独立。
正态性:
样本来自的两个总体应服从正态分布。
在样本所来自的总体不满足正态性条件时,如果两个样本的分布形状相似,它们的样本量相差不是太大并且样本量较大,仍然可以应用T检验。
方差齐性:
待比较的两个样本的方差相同。
如果两个组的样本量大致相等,略微偏离了方差齐性对检验结果的精度影响不大。
在T检验中,SPSS提供了方差齐性的Levene检验,当方差齐性不满足时,会提供方差齐性校正后的T检验结果。
案例分析,数据文件creditpromo.sav记录了接受不同促销方案的用户信用卡消费数据,现在需要检验新的促销方法是否能促进信用卡的消费,以此决定是否继续推进这种新促销方式。
目的是比较采用新促销方法的信用卡消费金额均值和标准促销方法的信用卡消费金额均值,看二者是否在统计上有显著的差异。
探索性分析,先对两种促销方式的客户消费数据进行描述性统计分析,初步探索两种不同的促销邮件下的客户花费情况。
正态性检验,设置正态性检验,正态性检验表,T检验,选择【分析】【比较均值】【独立样本T检验】,配对样本T检验,两配对样本T检验用来检验来自两配对总体的均值是否在统计上有显著性差异。
常见的配对设计方法有以下几种:
同一受试对象处理前后的数据,例如服用某种药物前和服用之后的血压变化;同一受试对象两个部位的数据,同一样本用两种方法测量的数据;配对的两个受试对象分别接受两种处理后的数据。
两配对样本T检验的前提条件,两样本应是配对的。
即受试对象的年龄、性别、体重等非处理因素都相同或相似;两个样本所来自的总体应服从正态分布(大样本情况下,T检验较为稳健),案例分析,数据文件dietstudy.sav包含对“Stillmandiet”的研究结果。
医生为检验某种饮食方案是否对有家庭心脏病史的病人有效,对16个病人进行了了试验,记录他们在实行饮食方案前后的体重(磅)以及甘油三酸酯的水平(mg/100ml)。
采用T检验对该饮食方案的效果进行分析。
配对T检验操作,选择【分析】【比较均值】【配对样本T检验(P)】,T检验结果解释,配对T检验注意事项,需要先检查两个样本是否服从正态分布。
应用直方图、Q-Q图或者K-S检验等方法来检验差值变量的正态性。
分析变量中是否含有离群值。
可以用箱图来检查离群值的情况。
可以先计算配对样本的差值变量,然后进行单样本的T检验。
动手练习,数据文件GSS2004_Mod.sav中记录了男性或者女性每周上网浏览网页的时间(变量WWWHR,单位小时)和每天观看电视的时间(变量TVHOURS,单位小时)。
用本章学习的技巧分析男性和女性在观看电视的时间和上网的时间上分别就什么区别。
第四讲方差分析,方差分析的主要内容,方差分析的基本思想了解方差分析和比较均值的异同单因素方差分析的应用条件、方法和结果的解释多因素方差分析的应用条件、方法和结果的解释协方差分析的应用条件、方法和结果的解释,t检验应用于研究单样本均值的比较和两个样本均值的比较。
在生产活动和科学研究中经常会遇到比较三个或者三个以上样本均值的差异问题。
这时,采用的统计方法称为方差分析,简称ANOVA(analasisofvariance)。
例如某机构对当前民众的生活状况进行调查,根据被调查者的回答把居民对待生活的态度分为三类:
认为生活丰富多彩、生活平平常常和生活乏味三类,它们想知道人们对待生活的态度是否和他们受教育的情况有关系,即这三类人是否在受教育程度上有显著的区别。
方差分析的术语,试验中的实验结果是需要分析的变量,称为响应变量,或者因变量。
方差分析的因变量必须为尺度类型的数据(即连续数据)。
影响试验结果的因素即为影响响应变量的变量,称为自变量或者因子。
根据试验中这些因素的处理方式,因素可以分为控制因素、随机因素和协变量。
因子的不同取值称为因子的不同水平。
控制因素一般要求为分类变量,而协变量要求为尺度数据。
控制因素:
它是试验中可以控制的影响试验结果的因素,因素的不同水平会导致不同的试验结果。
不可控因素:
因素的水平与试验结果的关系是随机的,即不确定因素,但是不同于随机因素,可以理解为非研究关心的因素或非处理因素。
随机因素:
因素与试验结果的关系是随机的,其水平也是随机出现的。
处理:
在试验中,控制因素的一个水平或者几个控制因素的某一水平组合称为一个处理。
方差分析的前提条件,方差分析的自变量是“因子”或者“因素”,它是分类变量;其因变量则为尺度变量,需要满足以下两个基本前提条件:
每个处理的因变量为正态分布(正态性)每个处理的因变量具有相同的方差(方差齐性),方差分析基本原理,方差分析的前提:
各样本相互独立各样本来自正态总体样本所属的总体方差相等,即方差齐性,方差分析基本原理,认为不同处理组的均值间的差别基本来源有两个:
(1)随机误差:
如抽取样本的随机性造成的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SSE
(2)系统误差:
由控制因素中不同水平造成的差异,称为组间差异。
用变量在各组的均值与总均值之偏差平方和表示,记作SSA,方差分析基本原理(续),组内SSE、组间SSA除以各自的自由度(组内dfE=n-m,组间dfA=m-1,其中n为样本总数,m为组数),得到其均方MSE和MSA一种情况是处理没有作用,即各组样本均来自同一总体,MSE/MSA1。
另一种情况是处理确实有作用,那么,MSA/MSE(远远大于1,足以超过某个临界值)。
F=MSA/MSE,服从F分布。
用F值与其临界值比较,推断各样本是否来自相同的总体.,方差分析的假设检验,零假设H0:
m组样本均值都相同,即1=2=.=m如果经过计算结果组间均方远远大于组内均方(MSAMSE),FF0.05(dfA,dfE),p0.05不能拒绝零假设,说明样本来自相同的正态总体,处理间无差异。
F分布曲线,F分布曲线下面积与概率,单因素的方差分析,用于研究一个影响因素对试验结果的影响,它用于比较两个或者两个以上的总体之间是否有显著的差异SPSS的单因素方差分析提供下列分析结果:
试验结果在不同组别的统计检验各个组别方差是否相等各个组别的概略图(均值图)配对多重比较不同组别组合的对比检验同类子集,单因素方差分析举例,销售经理想了解新员工培训的最佳方式。
目前有三种新员工培训方式:
为期一天的培训、为期二天的培训和为期三天培训。
现在需要比较用这三种方式培训员工的效果,分析这三种培训方式培训员工的效果是否有显著的差异,如果有差异,哪种培训方式最佳。
打开数据文件salesperformance.sav,它包含两个变量,“组”变量记录了培训方式;“得分”是对员工培训效果的评价。
SPSS实现,选择【分析】【比较均值】【单因素ANOVA】,选择两两比较方法,选择进行方差齐性检验和统计量、图形,点击【选项】,在统计量部分勾选“描述性”和“方差同质性检验”两项,同时勾选“均值图(M)”。
结果解释,两两比较结果及解释,由于Levene检验没有证据说明三种培训方式的方差相等,参照两种不同的两两比较的结果是必要的。
Bonferroni和Tamhane多重比较的结果是一致的。
即培训2天和培训3天没有显著的区别,而培训1天与另外两种培训都有显著区别。
同质子集,TukeyB两两比较输出的结果,它把在5%的显著性水平下没有区别的总体放在同一列,作为同类子集。
这里,培训2天和培训3天没有显著区别,它们作为一类。
而培训1天单独作为1类。
轮廓图,轮廓图为各个总体的均值的折线图,从中可以直观的看出各个总体均值的趋势。
多因素方差分析,如果影响试验结果的因素有两个或者两个以上,是否不同的处理对试验结果有显著性影响,不同的因素是否有交互作用?
可以应用SPSS的一般线性模型(GLM)来完成多因素的方差分析。
SPSSGLM过程假设条件,误差之间相互独立,并且也独立于模型中的其他变量。
一般好的试验设计都可以避免违反该条件。
不同处理的误差为常数。
误差服从均值为0的正态分布。
举例,一家连锁零售商店对它们客户的购买习惯进行了一项调查,它记录了客户性别,购买模式、上一个月的购买金额等信息。
该商店需要了解在控制客户性别的条件下,是否客户购买的频率和花费的金额有关系,以此来决定是否采取相应的促销活动。
打开数据文件grocery_1month.sav。
选择【分析】【一般线性模型】【单变量】,绘制选项,把style选入水平轴,gender选入单图,然后点击“添加”。
再把style和gender互相交换,选入不同的框中,单击“添加”。
结果及其解释
(1),结果及其解释
(2),结果及其解释(3),男性和女性在每周购物和两周一次购物的均值线是平行的,都是男高女低;而在经常购物上,二者差距不大,经常购物均值线和另外两条线有交叉,表明二个因素有交互效应。
效应是否显著在“主体间效应的检验”表中标识。
结果及其解释(4),男性的所有消费方式的消费金额均大于女性,男性和女性消费方式的曲线是不平行的,表明二者有交互效应。
女性在经常性购物中花费金额最多;而男性则在每周购物方式中花费最多。
动手练习,得克萨斯州的一所大学提出了三种GMAT辅导课程:
即3小时复习、1天课程和10周强化班,他们需要了解这三种辅导方式如何影响GMAT成绩。
另外,通常考生来自三类院校,即商学院、工学院、艺术与科学院。
因此,了解不同类型学校毕业的考生GMAT成绩是否有差异也是一个让人感兴趣的话题。
他们在三类学校中每一个随机抽取6个学生,随机指派两名到一门辅导课程中,最后他们的GMAT成绩结果记录于数据文件GmatScore.sav中。
问题为:
1)不同的辅导课程是否对学生GMAT的成绩有显著的影响?
来自不同类型学校的学生的GMAT成绩是否有显著的差别?
请给出理由。
2)是否一类学校的考生适应一种辅导课程,而另一类学校的考生适合其他课程?
请给出理由。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 分析 第三