SPSS数据分析的医学统计方法选择.docx
- 文档编号:12709365
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:23
- 大小:27.04KB
SPSS数据分析的医学统计方法选择.docx
《SPSS数据分析的医学统计方法选择.docx》由会员分享,可在线阅读,更多相关《SPSS数据分析的医学统计方法选择.docx(23页珍藏版)》请在冰点文库上搜索。
SPSS数据分析的医学统计方法选择
SPSS数据分析得医学统计方法选择
●资料1
完全随机分组设计得资料
一、两组或多组计量资料得比较
1.两组资料:
1)大样本资料或服从正态分布得小样本资料
(1)若方差齐性,则作成组t检验
(2)若方差不齐,则作t’检验或用成组得Wilcoxon秩与检验
2)小样本偏态分布资料,则用成组得Wilcoxon秩与检验
2.多组资料:
1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机得方差分析。
如果方差分析得统计检验为有统计学意义,则进一步作统计分析:
选择合适得方法(如:
LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本得偏态分布资料或方差不齐,则作KruskalWallis得统计检验。
如果KruskalWallis得统计检验为有统计学意义,则进一步作统计分析:
选择合适得方法(如:
用成组得Wilcoxon秩与检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类资料得统计分析
1.单样本资料与总体比较
1)二分类资料:
(1)小样本时:
用二项分布进行确切概率法检验;
(2)大样本时:
用U检验。
2)多分类资料:
用Pearsonχ2检验(又称拟合优度检验)。
2.四格表资料
1)n>40并且所以理论数大于5,则用Pearsonχ2
2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正χ2或用Fisher’s确切概率法检验
3)n≤40或存在理论数<1,则用Fisher’s检验
3.2×C表资料得统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分得CMHχ2或成组得Wilcoxon秩与检验
2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势χ2检验
3)行变量与列变量均为无序分类变量
(1)n>40并且理论数小于5得格子数<行列表中格子总数得25%,则用Pearsonχ2
(2)n≤40或理论数小于5得格子数>行列表中格子总数得25%,则用Fisher’s确切概率法检验
4.R×C表资料得统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMHχ2或KruskalWallis得秩与检验
2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作nonezerocorrelationanalysis得CMHχ2
3)列变量与行变量均为有序多分类变量,可以作Spearman相关分析
4)列变量与行变量均为无序多分类变量,
(1)n>40并且理论数小于5得格子数<行列表中格子总数得25%,则用Pearsonχ2
(2)n≤40或理论数小于5得格子数>行列表中格子总数得25%,则用Fisher’s确切概率法检验
三、Poisson分布资料
1.单样本资料与总体比较:
1)观察值较小时:
用确切概率法进行检验。
2)观察值较大时:
用正态近似得U检验。
2.两个样本比较:
用正态近似得U检验。
配对设计或随机区组设计
四、两组或多组计量资料得比较
1.两组资料:
1)大样本资料或配对差值服从正态分布得小样本资料,作配对t检验
2)小样本并且差值呈偏态分布资料,则用Wilcoxon得符号配对秩检验
2.多组资料:
1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组得方差分析。
如果方差分析得统计检验为有统计学意义,则进一步作统计分析:
选择合适得方法(如:
LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman得统计检验。
如果Fredman得统计检验为有统计学意义,则进一步作统计分析:
选择合适得方法(如:
用Wilcoxon得符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。
五、分类资料得统计分析
1.四格表资料
1)b+c>40,则用McNemar配对χ2检验或配对边际χ2检验
2)b+c≤40,则用二项分布确切概率法检验
2.C×C表资料:
1)配对比较:
用McNemar配对χ2检验或配对边际χ2检验
2)一致性问题(Agreement):
用Kap检验
变量之间得关联性分析
六、两个变量之间得关联性分析
1.两个变量均为连续型变量
1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析
2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析
2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析
3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析
七、回归分析
1.直线回归:
如果回归分析中得残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量得线性回归,称为简单回归),否则应作适当得变换,使其满足上述条件。
2.多重线性回归:
应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
如果回归分析中得残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
3.二分类得Logistic回归:
应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对得情况:
用非条件Logistic回归
(1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
(2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
2)配对得情况:
用条件Logistic回归
(1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
(2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
4.有序多分类有序得Logistic回归:
应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
5.无序多分类有序得Logistic回归:
应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
八、生存分析资料:
(要求资料记录结局与结局发生得时间,如:
死亡与死亡发生得时间)
1.用Kaplan-Meier方法估计生存曲线
2.大样本时,可以寿命表方法估计
3.单因素可以用Log-rank比较两条或多条生存曲线
4.多个因素时,可以作多重得Cox回归
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
●资料2
1、连续性资料
1、1两组独立样本比较
1、1、1资料符合正态分布,且两组方差齐性,直接采用t检验。
1、1、2资料不符合正态分布
(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后得数据采用t检验;
(2)采用非参数检验,如Wilcoxon检验。
1、1、3资料方差不齐
(1)采用Satterthwate得t’检验;
(2)采用非参数检验,如Wilcoxon检验。
1、2两组配对样本得比较
1、2、1两组差值服从正态分布,采用配对t检验。
1、2、2两组差值不服从正态分布,采用wilcoxon得符号配对秩与检验。
1、3多组完全随机样本比较
1、3、1资料符合正态分布,且各组方差齐性,直接采用完全随机得方差分析。
如果检验结果为有统计学意义,则进一步作两两比较,两两比较得方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
1、3、2资料不符合正态分布,或各组方差不齐,则采用非参数检验得Kruscal-Wallis法。
如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组得Wilcoxon检验。
1、4多组随机区组样本比较
1、4、1资料符合正态分布,且各组方差齐性,直接采用随机区组得方差分析。
如果检验结果为有统计学意义,则进一步作两两比较,两两比较得方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
1、4、2资料不符合正态分布,或各组方差不齐,则采用非参数检验得Fridman检验法。
如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对得Wilcoxon检验。
需要注意得问题:
(1)一般来说,如果就是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。
因为统计学上有中心极限定理,假定大样本就是服从正态分布得。
(2)当进行多组比较时,最容易犯得错误就是仅比较其中得两组,而不顾其她组,这样作容易增大犯假阳性错误得概率。
正确得做法应该就是,先作总得各组间得比较,如果总得来说差别有统计学意义,然后才能作其中任意两组得比较,这些两两比较有特定得统计方法,如上面提到得LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
绝不能对其中得两组直接采用t检验,这样即使得出结果也未必正确。
(3)关于常用得设计方法:
多组资料尽管最终分析都就是采用方差分析,但不同设计会有差别。
常用得设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。
2.分类资料
2、1四格表资料
2、1、1例数大于40,且所有理论数大于5,则用普通得Pearson检验。
2、1、2例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正得检验或Fisher’s确切概率法检验。
2、1、3例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验。
2、22×C表或R×2表资料得统计分析
2、2、1列变量&行变量均为无序分类变量,则
(1)例数大于40,且理论数小于5得格子数目<总格子数目得25%,则用普通得Pearson检验。
(2)例数小于40,或理论数小于5得格子数目>总格子数目得25%,则用Fisher’s确切概率法检验。
2、2、2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通得Pearson检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组得Wilcoxon秩与检验。
2、2、3列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通得Pearson检验比较各组之间有无差别,如果总得来说有差别,还可进一步作两两比较,以说明就是否任意两组之间得差别都有统计学意义。
2、3R×C表资料得统计分析
2、3、1列变量&行变量均为无序分类变量,则
(1)例数大于40,且理论数小于5得格子数目<总格子数目得25%,则用普通得Pearson检验。
(2)例数小于40,或理论数小于5得格子数目>总格子数目得25%,则用Fisher’s确切概率法检验。
(3)如果要作相关性分析,可采用Pearson相关系数。
2、3、2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通得Pearson检验只说明组间构成比不同,如要说明疗效或强弱程度得不同,则可用行平均分差检验或成组得Wilcoxon秩与检验或Ridit分析。
2、3、3列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通得Pearson检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明就是否任意两组之间得差别都有统计学意义。
2、3、4列变量&行变量均为有序多分类变量
(1)如要做组间差别分析,则可用行平均分差检验或成组得Wilcoxon秩与检验或Ridit分析。
如果总得来说有差别,还可进一步作两两比较,以说明就是否任意两组之间得差别都有统计学意义。
(2)如果要做两变量之间得相关性,可采用Spearson相关分析。
2、4配对分类资料得统计分析
2、4、1四格表配对资料
(1)b+c>40,则用McNemar配对检验。
(2)b+c<40,则用校正得配对检验。
2、4、1C×C资料
(1)配对比较:
用McNemar配对检验。
(2)一致性检验,用Kappa检验。
●资料3
在研究设计时,统计方法得选择需考虑以下6个方面得问题:
(1)瞧反应变量就是单变量、双变量还就是多变量;
(2)瞧单变量资料属于3种资料类型(计量、计数及等级资料)中得哪一种;(3)瞧影响因素就是单因素还就是多因素;(4)瞧单样本、两样本或多样本;(5)瞧就是否就是配对或配伍设计;(6)瞧就是否满足检验方法所需得前提条件,必要时可进行变量变换,应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较得方差分析,均要求方差齐性,因此需要做方差齐性检验。
如果要用正态分布法估计参考值范围,首先要检验资料就是否服从正态分布。
在建立各种多重回归方程时,常需检验变量间得多重共线性与残差分布得正态性。
表1-1
连续因变量
分类因变量
连续自变量
回归分析
Logistic 回归
分类自变量
方差分析(ANOVA)
表格检验(比如卡方检验)
不同得统计分析方法都有其各自得应用条件与适用范围。
实际应用时,必须根据研究目得、资料得性质以及所要分析得具体内容等选择适当得统计分析方法,切忌只关心p值得大小(就是否<0、05),而忽略统计分析方法得应用条件与适用范围。
一、两个变量之间得关联性分析
1、两个变量均为连续型变量
1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析
2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析
2、两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析
3、一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析
二、回归分析
1、直线回归:
如果回归分析中得残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量得线性回归,称为简单回归),否则应作适当得变换,使其满足上述条件。
2、多重线性回归:
应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
如果回归分析中得残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
3、二分类得Logistic回归:
应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对得情况:
用非条件Logistic回归
(1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
(2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
2)配对得情况:
用条件Logistic回归
(1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
(2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
4、有序多分类有序得Logistic回归:
应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用
5、无序多分类有序得Logistic回归:
应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:
可以用逐步线性回归寻找(拟)主要得影响因素
2)实验性研究:
在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能得混杂因素变量,以校正这些混杂因素对结果得混杂作用。
●资料4
一.统计方法抉择得条件
在临床科研工作中,正确地抉择统计分析方法,应充分考虑科研工作者得分析目得、临床科研设计方法、搜集到得数据资料类型、数据资料得分布特征与所涉及得数理统计条件等。
其中任何一个问题没考虑到或考虑有误,都有可能导致统计分析方法得抉择失误。
此外,统计分析方法得抉择应在科研得设计阶段来完成,而不应该在临床试验结束或在数据得收集工作已完成之后。
对临床科研数据进行统计分析与进行统计方法抉择时,应考虑下列因素:
1.分析目得
对于临床医生及临床流行病医生来说,在进行统计分析前,一定要明确利用统计方法达到研究者得什么目得。
一般来说,统计方法可分为描述与推断两类方法。
一就是统计描述(descriptive statistics),二就是统计推断(inferential statistics)。
统计描述,即利用统计指标、统计图或统计表,对数据资料所进行得最基本得统计分析,使其能反映数据资料得基本特征,有利于研究者能准确、全面地了解数据资料所包涵得信息,以便做出科学得推断。
统计表,如频数表、四格表、列联表等;统计图,如直方图、饼图,散点图等;统计指标,如均数、标准差、率及构成比等。
统计推断,即利用样本所提供得信息对总体进行推断(估计或比较),其中包括参数估计与假设检验,如可信区间、t检验、方差分析、2检验等,如要分析甲药治疗与乙药治疗两组得疗效就是否不相同、不同地区某病得患病率有无差异等。
还有些统计方法,既包含了统计描述也包含了统计推断得内容,如不同变量间得关系分析。
相关分析,可用于研究某些因素间得相互联系,以相关系数来衡量各因素间相关得密切程度与方向,如高血脂与冠心病、慢性宫颈炎与宫颈癌等得相关分析;回归分析,可用于研究某个因素与另一因素(变量)得依存关系,即以一个变量去推测另一变量,如利用回归分析建立起来得回归方程,可由儿童得年龄推算其体重。
2.资料类型
资料类型得划分现多采用国际通用得分类方法,将其分为两类:
数值变量(numerical variable)资料与分类变量(categorical variable)资料。
数值变量就是指其值就是可以定量或准确测量得变量,其表现为数值大小得不同;而分类变量就是指其值就是无法定量或不能测量得变量,其表现没有数值得大小而只有互不相容得类别或属性。
分类变量又可分为无序分类变量与有序分类变量两小类,无序分类变量表现为没有大小之分得属性或类别,如:
性别就是两类无序分类变量,血型就是四类无序分类变量;有序分类变量表现为各属性或类别间有程度之分,如:
临床上某种疾病得“轻、中、重”,治疗结果得“无效、显效、好转、治愈”。
由此可见,数值变量资料、无序分类变量资料与有序分类变量资料又可叫做计量资料、计数资料与等级资料。
资料类型得划分与统计方法得抉择有关,在多数情况下不同得资料类型,选择得统计方法不一样。
如数值变量资料得比较可选用t检验、u检验等统计方法;而率得比较多用2检验。
值得注意得就是,有些临床科研工作者,常常人为地将数值变量得结果转化为分类变量得临床指标,然后参与统计分析,如患者得血红蛋白含量,研究者常用正常、轻度贫血、中度贫血与重度贫血来表示,这样虽然照顾了临床工作得习惯,却损失了资料所提供得信息量。
换言之,在多数情况下,数值变量资料提供得信息量最为充分,可进行统计分析得手段也较为丰富、经典与可靠,与之相比,分类变量在这些方面都不如数值变量资料。
因此,在临床实验中要尽可能选择量化得指标反映实验效应,若确实无法定量时,才选用分类数据,通常不宜将定量数据转变成分类数据。
3.设计方法
在众多得临床科研设计方法中,每一种设计方法都有与之相适应得统计方法。
在统计方法得抉择时,必须根据不同得临床科研设计方法来选择相应得统计分析方法。
如果统计方法得抉择与设计方法不一致,统计分析得到得任何结论都就是错误得。
在常用得科研设计方法中,有成组设计(完全随机设计)得t检验、配对t检验、成组设计(完全随机设计)得方差分析、配伍设计(随机区组设计)得方差分析等,都就是统计方法与科研设计方法有关得佐证。
因此,应注意区分成组设计(完全随机设计)与配对与配伍设计(随机区组设计),在成组设计中又要注意区别两组与多组设计。
最常见得错误就是将配对或配伍设计(随机区组设计)得资料当做成组设计(完全随机设计)来处理,如配对设计得资料使用成组t检验、配伍设计(随机区组设计)使用成组资料得方差分析;或将三组及三组以上得成组设计(完全随机设计)资料得比较采用多个t检验、三个或多个率得比较采用四格表得卡方检验来进行比较,都就是典型得错误。
如下表:
表1 常见与设计方法有关得统计方法抉择错误
表格1
设计方法
错误得统计方法
正确统计方法
两个均数得比较(成组设计、完全随机设计)
成组设计得t检验
成组设计得秩与检验
多个均数得比较(成组设计、完全随机设计)
多个成组设计得t检验
完全随机设计得方差分析及q检验、完全随机设计得秩与检验及两两比较
数值变量得配对设计
成组设计得t检验
配对t检验、配对秩与检验
随机区组设计(配伍设计)
多个成组设计得t检验、完全随机设计得方差分析
随机区组设计得方差分析及q检验、随机区组设计得秩与检验及两两比较
交叉设计
成组设计得t检验、配对t检验、配对秩与检验
交叉设计得方差分析、交叉设计得秩与检验
4.分布特征及数理统计条件
数理统计与概率论就是统计得理论基础。
每种统计方法都要涉及数理统计公式,而这些数理统计公式都就是在一定条件下推导与建立得。
也就就是说,只有当某个或某些条件满足时,某个数理统计公式才成立,反之若不满足条件时,就不能使用某个数理统计公式。
在数理统计公式推导与建立得条件中,涉及最多得就是数据得分布特征。
数据得分布特征就是指数据得数理统计规律,许多数理统计公式都就是在特定得分布下推导与建立得。
若实际资料服从(符合)某种分布,即可使用该分布所具有得数理统计规律来分析与处理该实际资料,反之则不能。
在临床资料得统计分析过程中,涉及得最多得分布有正态分布、偏态分布、二项分布等。
许多统计方法对资料得分布有要求,如:
均数与标准差、t与u检验;方差分析都要求资料服从正态分布,而中位数与四分位数间距、秩与检验等,可用于不服从正态分布得资料。
所以,临床资料得统计分析过程中,应考虑资料得分布特征,最起码得要求就是熟悉正态分布与偏态分布。
例如:
在临床科研中,许多资料得描述不考虑资料得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 分析 医学 统计 方法 选择