SPSS基础入门.pptx
- 文档编号:18734093
- 上传时间:2023-10-23
- 格式:PPTX
- 页数:85
- 大小:7.90MB
SPSS基础入门.pptx
《SPSS基础入门.pptx》由会员分享,可在线阅读,更多相关《SPSS基础入门.pptx(85页珍藏版)》请在冰点文库上搜索。
,SPSS基础入门,基于spss16.0,报告人:
张淑洁,目录,CONTENTS,2,SPSS软件概述,3,4,SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和MacOSX等版本。
最初软件全称为“社会科学统计软件包”(SolutionsStatisticalPackagefortheSocialSciences)但是随着SPSS产品服务领域的扩大和服务深度的增加正式将英文全称更改为“统计产品与服务解决方案”(StatisticalProductandServiceSolutions),5,SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生NormanH.Nie、C.Hadlai(Tex)Hull和DaleH.Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。
如今SPSS已出至版本22.0,而且更名为IBMSPSS。
迄今,SPSS公司已有40余年的成长历史。
数据录入,统计分析,SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。
结果呈现,SPSS操作入门,8,数据编辑窗口SPSSDataEditor,结果管理窗口SPSSOutputViewer,数据录入,11,12,数据录入,1,2,3,姓名、性别、成绩.地区、时间、营业额.身高、体重、智力.,定义变量名,变量名、变量标签值、变量的储存类型、缺失值、变量的测量尺度,指定每个变量的各种属性,变量名不能与SPSS保留字相同。
SPSS的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。
录入数据,13,01,第一,02,第二,“一个观测占一行,一个变量占一列”,Name:
变量名。
变量名必须以字母、汉字及开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。
Type:
变量类型。
变量类型有8种,最常用的是Numeric数值型变量。
其它常用的类型有:
String字符型,Date日期型,Comma逗号型(隔3位数加一个逗号)等。
Width:
变量所占的宽度。
Decimals:
小数点后位数。
Label:
变量标签。
关于变量涵义的详细说明。
Values:
变量值标签。
关于变量各个取值的涵义说明。
Missing:
缺失值的处理方式。
Columns:
变量在DateView中所显示的列宽(默认列宽为8)。
Align:
数据对齐格式(默认为右对齐)。
Measure:
数据的测度方式。
名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。
示例1,将下面的数据按要求录入到SPSS中,要求:
姓名:
字符型;宽度8;小数点0;列宽8;左对齐;称名变量性别:
数字型;宽度8;小数点0;1代表男,2代表女;列宽8;左对齐;称名变量期末成绩:
数字型;宽度10;小数点1;列宽8;右对齐;等比变量,SPSS中可以直接读入许多常用格式的数据文件,选择菜单FileOpenData或直接单击快捷键工具栏上的快捷按钮,系统就会弹出OpenFile对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。
示例2,数据分析及结果解读,17,18,Frequencies:
频数分布,Descriptives:
一般性描述,Explore:
探索性分析,Crosstabs:
交叉列表,调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。
它在一般描述性统计指标的基础上,增加有关数据其它特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。
调用此过程可进行计数资料和某些等级资料的交叉表分析,在分析中,可对二维至多维交叉表资料进行统计描述和x2检验,并计算相应的百分数。
调用此过程可进行频数分布表的分析。
频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。
19,示例2,待分析的变量,是否显示频数表,定义需要计算的统计量,定义需要绘制的统计图,频数分布表(Frequencies),定义表格,百分位数,分布特征描述,离散趋势,集中趋势,Frequencies:
定义统计量,统计图类型,直方图加上正态曲线,以频数绘制条图或饼图,Frequencies:
定义统计图,无图形,条图,饼图,直方图,以构成比绘制条图或饼图,频数表排列次序,Frequencies:
定义表格,按数值升序,按数值降序,按频数升序,按频数降序,Frequencies:
结果解释,Frequencies:
结果解释,Frequencies:
结果解释,是否保存标准变换后的数据,一般性描述(Descriptives),Descriptives:
定义统计量,Descriptives:
结果解释,Descriptives:
结果解释,此外,系统以z成绩为变量名将原始数据转换成标准z分值,存放在原数据库中。
新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。
探索性分析(Explore),两者均有,统计量,图,分组变量列表,待分析变量列表,Explore:
定义统计量,Descriptives:
输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。
M-estimators:
作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。
Outliers:
输出五个最大值与五个最小值。
Percentiles:
输出第5%、10%、25%、50%、75%、90%、95%位数。
箱图绘制方式,茎叶图,正态性检验/正态分布图,Explore:
定义统计图,直方图,Excludecaselistwise:
不分析有任一缺失值的记录Excludecasepairwise:
不分析计算某统计量时有缺失值的记录Reportvalues:
报告缺失值,缺失值的处理方式,Explore:
缺失值的处理,Explore:
结果解释,原始数据的基本情况:
男性有效数据4,缺失0,合计4;女性有效数据6,缺失0,合计6。
Explore:
结果解释,Explore:
结果解释,左面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值。
交叉列表(Crosstabs),行,列,Crosstabs:
定义统计量,X2检验,Crosstabs:
定义交叉表内容,实际观察数,理论数,行百分数,列百分数,合计百分数,残差,Crosstabs:
结果解释,Crosstabs:
结果解释,红底数字为实际观察值;黄底数字为列百分数。
Crosstabs:
结果解释,单因素方差分析,单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的比较问题。
是一种对多个(大于两个)总体样本的均值是否存在显著差异的检验方法。
其目的也是对不同的总体的数据的均值之间的差异是否显著进行检验。
单因素方差分析的应用条件:
在不同的水平(因素变量取不同值)下,各总体应当服从方差相等的正态分布。
示例3,某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择,为了比较这三个零件的强度是否相同,每个地区的企业抽出6件产品进行强度测试,其值如表所示。
假设每个企业零件的强度值服从正态分布,试检验这三个地区企业的零件强度是否存在显著差异。
解:
首先建立假设H0:
三个地区的零件强度无显著差异;H1:
三个地区的零件强度有显著差异。
1、单击AnalyzeCompareMeansOne-WayANOVA,打开One-WayANOVA对话框。
2、从左框中选择因变量“零件强度”进入Dependentlist框内,选择因素变量地区”进入Factor框内。
点击OK就可以得到方差分析下表。
3、单击Option按纽,打开Option对话框如图所示:
在Option选项中选择输出项。
主要有不同水平下样本方差的齐性检验,缺失值的处理方式及均值的图形。
本例中选择Homogeneityofvariancetest进行不同水平间方差齐性的检验以及Descriptive基本统计描述。
在MissingValue栏中选择系统默认项。
完成所有选择后返回主对话框,然后单击OK,就可以得到三个地区零件强度分析表。
方差齐性检验,Sig值大于0.05,符合方差齐性假设,由于F统计量值的P值明显小于显著性水平0.05,故拒绝假设H0,认为这三个地区的零件强度有显著差异。
4、如果需要将水平间两两比较,可以单击PostHoc按纽,打开多重比较对话框。
在该对话框中列出了许多多重比较检验,涉及到许多的数理统计方法,在实际中只选用其中常用的方法即可。
对话框下部的Significancelevel表示显著性水平,默认值是0.05,也可以根据需要重新输入其它值。
如果满足在水平间方差相等的条件,常用LSD(least-significantdifference最小显著性差异法),表示用t检验完成各组均值间的配对比较。
当方差不等的情况下,可以选择TamhanesT2,用t检验进行各组均值间的配对比较。
从表可以看出,地区2与地区3之间的差异是非常显著的,p0.05。
双因素方差分析,单因变量的双因素方差分析是对观察的现象(因变量)受两个因素或变量的影响进行分析,检验不同水平组合之间对因变量的影响是否显著。
双因素方差分析应用条件:
因变量和协变量必须是数值型变量,且因变量来自或近似来自正态总体。
因素变量是分类变量,变量可以是数值型或字符型的。
各水平下的总体假设服从正态分布,而且假设各水平下的方差是相等的。
双因素方差分析过程可以分析出每一个因素的作用;各因素之间的交互作用;检验各总体间方差是否相等;还能够对因素的各水平间均值差异进行比较等。
示例4:
右表是某商品S在不同地区和不同时期的销售量表。
已知数据服从正态分布,则要检验地区因素及时间因素对销售量的影响是否显著。
由于销售量受地区和时间两个因素的影响,这是一个双因素方差分析的问题。
1、单击AnalyzeGenerallinearModelUnivariate,打开Univariate主对话框。
2、选择要分析的变量”销售量”进入DependentVariable框中,选择因素变量”地区”和”时期”进入FixedFactor框中。
3、单击Model按纽选择分析模型,得到Model对话框。
如图所示:
在Specify框中,指定模型类型。
Custom选项为自定义模型,本例选择此项并激活下面的各项操作。
先从左边框中选择因素变量进入Model框中,然后选择效应类型。
一般不考虑交互作用时,选择主效应Main,考虑交互作用时,选择交互作用Interaction。
可以通过单击BuildTerm下面的小菜单完成,本例中选择主效应。
4、从表中数据可以看出,F值对应概率P值都小于显著性水平0.05,这说明地区和时期对销售量的影响都是显著的。
5、如果需要进行图形展示,可单击Plots按纽,打开图形对话框如图所示。
(1)在Factor框中选择因素变量进入横坐标HorizontalAxis框内,然后单击add按纽,可以得到该因素不同水平的因变量均值的分布。
(2)如果要了解两个因素变量的交互作用,将一个因素变量送入横坐标后,将另一个因素变量送入SeparateLines分线框中,然后单击add按纽。
就可以输出反映两个因素变量的交互图。
本例中选择“地区”为横坐标。
6、如需要将因素A各水平间均值进行两两比较,单击PostHoc按纽,打开PostHocMultiple多重比较对话框如图所示。
从Factor框中选择因素变量进入PostHocTestfor框中,然后选择多重比较方法。
本例中各组方差相等,选择LSD方法。
7、单击Options按纽,打开Univariate:
Options对话框,从中选择需要输出的显著性水平,默认值为0.05。
在进行所有的选择后,单击OK,就可以得到输出结果。
由多重比较LSD表中得到不同地区销售量的比较表。
两个因素变量地区和时期的折线之间无交叉,因此两个因素之间基本上没有交互作用。
相关分析与回归模型的建立与分析,相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。
相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。
对变量之间的相关关系进行分析(Correlate)。
其中包括简单相关分析(Bivariate)和偏相关分析(Partial)。
建立因变量和自变量之间回归模型(Regression),其中包括线性回归分析(Linear)和曲线估计(CurveEstimation)。
数据条件:
参与分析的变量数据是数值型变量或有序变量。
相关分析,在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图所示。
简单相关分析两个变量之间的相关关系称简单相关关系。
有两种方法可以反映简单相关关系。
一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。
(1)散点图SPSS软件的绘图命令集中在Graphs菜单。
(2)相关系数:
(示例5)打开数据库后,单击AnalyzeCorrelateBivariate打开Bivariate对话框,见图所示。
从左边的变量框中选择需要考察的两个变量进入Variables框内,从CorrelationCoefficients栏内选择相关系数的种类,有Pearson相关系数,Kendalls一致性系数和Spearman等级相关系数。
从检验栏内选择检验方式,有双侧检验和单侧检验两种。
单击Options按纽,选择输出项和缺失值的处理方式。
本例中选择输出基本统计描述。
单击OK,可以得到相关分析的结果。
线性回归分析,线性回归是统计分析方法中最常用的方法之一。
如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象(因变量)与影响因素(自变量)之间的线性函数关系式。
线性回归模型假设条件与模型的各种检验1、线性回归的假设理论
(1)正态性假设:
即所研究的变量均服从正态分布;
(2)等方差假设:
即各变量总体的方差是相等的;(3)独立性假设:
即各变量之间是相互独立的;(4)残差项无自相关性:
即误差项之间互不相关,Cov(i,j)=0,2、线性回归模型的检验项目
(1)回归系数的检验(t检验)。
(2)回归方程的检验(F检验)。
(3)拟合程度判定(可决系数R2)。
(4)D.W检验(残差项是否自相关)。
(5)共线性检验(多元线性回归)。
(6)残差图示分析(判断异方差性和残差序列自相关)。
3、线性回归分析的具体步骤SPSS软件中进行线性回归分析的选择项为AnalyzeRegressionLinear。
仍然用示例5的数据,考察网络成瘾与社会支持、孤独之间的相关关系,建立网络成瘾对于相关因素的线性回归模型。
具体操作步骤如下:
1、打开数据文件,单击AnalyzeRegressionLinear打开Linear对话框如图所示。
2、从左边框中选择因变量进入Dependent框内,选择一个或多个自变量进入Independent框内。
从Method框内下拉式菜单中选择回归分析方法,有强行进入法(Enter),消去法(Remove),向前选择法(Forward),向后剔除法(Backward)及逐步回归法(Stepwise)五种。
本例中选择Enter方法。
3、单击Statistics,打开LinearRegression:
Statistics对话框,可以选择输出的统计量如图所示。
RegressionCoefficients栏,回归系数选项栏。
Estimates(系统默认):
输出回归系数的相关统计量:
包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(t值)及相应的检验统计量概率的P值(sig)。
本例中只选择此项。
Confidenceintervals:
输出每一个非标准化回归系数95的置信区间。
Covariancematrix:
输出协方差矩阵。
Modelfit是默认项。
能够输出复相关系数R、R2及R2修正值,估计值的标准误,方差分析表。
Rsquaredchange:
引入或剔除一个变量时,R2的变化。
Descriptives:
基本统计描述。
PartandPartialcorrelations:
相关系数及偏相关系数。
Collinearitydiagnostics:
共线性诊断。
主要对于多元回归模型,分析各自变量的之间的共线性的统计量:
包括容忍度和方差膨胀因子、特征值,条件指数等。
本例中选择上面所有的统计项。
Residuals残差栏Durbin-Watson:
D.W检验.Casewisediagnostics:
奇异值诊断,有两个选项:
Outliersoutside()standarddeviations:
奇异值判据,默认项标准差3。
Allcase输出所有观测量的残差值。
本例中选择D.W检验及奇异值诊断,选择标准差为2,即置信度约为95%。
4、单击Options按纽,打开LinearRegression:
Options对话框,如图所示。
可以从中选择模型拟合判断准则SteppingMethodCriteria及缺失值的处理方式。
SteppingMethodCriteria栏,设置变量引入或剔除模型的判别标准。
UseprobabilityofF:
采用F检验的概率为判别依据。
UseFvalue:
采用F值作为检验标准。
Includeconstantinequation回归方程中包括常数项。
MissingValues缺失值的处理方式。
本例中选择系统默认项。
5、如果要保存预测值等数据,可单击Save按纽打开LinearRegression:
Save对话框。
选择需要保存的数据种类作为新变量存在数据编辑窗口。
其中有预测值、残差,预测区间等。
本例中不做选择。
6、当所有选择完成后,单击OK得到分析结果。
主要的分析结果见表。
表模型综合分析中有模型的复相关系数R,样本决定系数R2,修正的可决系数,估计标准误,模型变化导致的可决系数及F值的变化,D.W检验值等。
DW量是判断数据是否存在序列相关的关键,如果存在的话就是伪回归。
它的值在2附近就表明是不存在序列相关的,残差统计表表示了预测值、残差、标准化预测值和标准化残差的特征值。
其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。
共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。
最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。
奇异值表中依次是序号,标准化残差值,实际观测值、预测值及残差值。
表中给出的八个个体数据的标准化残差超出了2。
“,学习spss的重点并不在软件本身,而是相关的统计学知识,也就是你要学会怎样去分析“输入数据后,软件给你呈现的结果”。
放在最后的话,谢谢聆听,Thanksforlistenling!
报告人:
张淑洁,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 基础 入门