常用统计方法.docx
- 文档编号:1206972
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:25
- 大小:35.01KB
常用统计方法.docx
《常用统计方法.docx》由会员分享,可在线阅读,更多相关《常用统计方法.docx(25页珍藏版)》请在冰点文库上搜索。
常用统计方法
常用统计方法
各种情形下最常用统计方法索引
数量资料统计描述
T检验和u检验
秩和检验
方差分析
分类资料统计描述
卡方检验
回归与相关分析
二项分布与Poisson分布
各种情形下最常用统计方法索引
因变量:
连续
单个自变量:
二分类 T检验
多分类 单因素方差分析
连续 相关分析,回归分析
多个自变量:
分类变量为主 方差分析模型
连续变量为主 线性回归模型
因变量:
有序分类
单个自变量:
二分类 秩和检验
多分类 秩和检验
连续 Logistic回归分析
多个自变量:
分类变量为主 Logistic回归分析
连续变量为主 判别分析、Logistic回归分析
因变量:
无序分类(含二分类)
单个自变量:
二分类 卡方检验
多分类 卡方检验
连续 Logistic回归分析
多个自变量:
分类变量为主 Logistic回归分析、最优尺度分析
连续变量为主 判别分析、Logistic回归分析
注:
当自变量和因变量均为有序/无序多分类时,实际上还有CMH卡方最为常用。
希望将变量/纪录分成若干个类别,但类别数不清楚,或各类别的特征不明:
聚类分析
∙希望建立判别方程,对以后新进入的案例进行所属类别的预测:
判别分析
∙需要探索多个变量间的内在联系或内在结构:
因子分析、对应分析
∙生存时间和生存结局都是需要关心的因素,同时数据中存在大量的失访:
生存分析
∙得到的是时间序列数据,需要对以后的情形加以预测:
时间序列模型
∙考察的特征需要有多个应变量来表示,同时研究多个自变量对他们的影响:
多元方差分析模型
数量资料统计描述
对数值变量资料进行统计分析的一般步骤,是先对观察测量得到的变量值(即观察值)进行统计描述,再在此基础上进行深入的统计推断。
统计描述的工作主要是在编制频数表的基础上描述资料的集中位置和离散程度。
一、数值变量资料的频数表
1.频数表(frequencytable)的编制方法:
(1)找出观察值中的最大值(largestvalue)、最小值(smallestvalue)和极差(range)。
(2)据极差大小确定组段和组距(classinterval),将其分为10个左右的组段。
(3)列表划记落在各组段内的观察值个数即可得频数表。
根据编制出的频数表即可了解该数值变量资料的频数分布特征。
2.频数分布的特征及类型:
(1)两个特征:
集中趋势(centraltendency)和离散趋势(tendencyofdispersion)
(2)两种类型:
对称分布(symmetricdistribution)和偏态分布(skeweddistribution),偏态分布又有正偏态(positivelyskewed)和负偏态(negativelyskewed)之分。
3.频数表的用途:
(1)描述资料的分布特征和分布类型。
(2)进一步计算有关指标或进行统计分析。
(3)发现特大、特小的可疑值。
(4)据此绘制频数分布图。
二、集中位置的描述
描述一组观察值集中位置或平均水平的指标称为平均数(average)。
它能使人对资料有个简明概括的印象,并能进行资料间的比较。
常用的平均数有算术均数、几何均数和中位数。
1.算术均数(arithmeticmean)
简称均数(mean),有总体均数和样本均数之分,分别用希腊字母
和英文字母
表示。
(1)计算方法
不分组资料用直接法。
即所有观察值的累积和除以观察值个数,相同观察值较多或分组资料常用加权法(weightingmethod)。
(2)均数的应用
适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料。
如有数据3、4、5、6、17,可见数据多在3-6之间,但均数为7,显然不能代表这组数据的中心位置,此时应用几何均数或中位数描述其集中趋势。
2.几何均数(geometricmean,G)
适用于呈倍数关系的等比资料或对数正态分布的资料,应用中应注意观察值不能同时有正有负,同一资料算得的几何均数小于算术均数。
3.中位数(median)
中位数是一组观察值的位置平均数,直接由原始数据计算中位数时,若n为奇数,则中位数为将观察值从小到大排序后中间位置那个观察值,若n为偶数,中位数为将观察值从小到大排序后中间两个观察值的算术均数。
用频数表计算中位数时先据频数表计算累计频数(cumulativefrequency)和累计频率,百分之五十分位数即为中位数。
中位数用于描述偏态分布资料的集中位置,它不受两端特大、特小值的影响,当分布末端无确切数据时也可计算。
百分位数(percentile)是资料分布数列的的百等份分割值,百分位数用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定。
百分位数还用于确定参考值范围(referencerange)
三、离散程度的描述
多组资料均数相同,只说明其集中趋势相同,各组数据内部观察值参差不齐的程度可能不同。
此时,常用极差、四分位数间距、方差、标准差和变异系数等指标来描述资料的离散程度。
1.极差(range,R)
又称全距,即最大和最小观察值之间的间距,用极差描述资料的离散程度简单明了,但它不能反映观察值的整个变异度,样本的例数越多,极差越大,不够稳定。
2.四分位数间距
四分位数(quartile,Q)是特定的百分位数,其中P25为下四分位数Ql,P75为上四分位数Qu。
四分位数间距即Qu-Ql。
四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。
3.方差(variance,Var)
怎样一个指标才能反映整个资料的变异程度呢?
离均差的绝对值之和或离均差平方和(sumofsquares,SS)可用来描述资料的变异度。
SS的均数(即方差)不受观察值个数的影响,用来描述资料的离散程度较离均差的绝对值之和或离均差平方和更好。
方差也有总体方差
和样本方差
之分。
4.标准差(standarddeviation)
因方差的单位是原单位的平方,所以使用仍不方便。
方差的算术平方根,即标准差,是一个更好的指标。
相应的,标准差也有总体标准差和样本标准差之分,分别用希腊字母
xigema(音)和英文s表示。
标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误。
5.变异系数(coefficientofvariance,CV)
当比较多组资料的变异度,而这几组资料的单位不同或均数相差悬殊时,用标准差就不合适。
此时需要用到变异系数又称离散系数(coefficientofdispersion)来比较,它实际上是标准差占均数的百分比例。
t检验和u检验
简而言之,t检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。
当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。
当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。
一、样本均数与总体均数比较的t检验
样本均数与总体均数比较的t检验实际上是推断该样本来自的总体均数µ与已知的某一总体均数µ0(常为理论值或标准值)有无差别。
如根据大量调查,已知健康成年男性的脉搏均数为72次/分,某医生在一山区随即抽查了25名健康男性,求得其脉搏均数为次/分,标准差为次/分,问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性。
上述两个均数不等既可能是抽样误差所致,也有可能真是环境差异的影响,为此,可用t检验进行判断,检验过程如下:
1.建立假设
H0:
µ=µ0=72次/分,H0:
µ>µ0,检验水准为单侧0.05。
2.计算统计量
进行样本均数与总体均数比较的t检验时t值为样本均数与总体均数差值的绝对值除以标准误的商,其中标准误为标准差除以样本含量算术平方根的商。
3.确定概率,作出判断
以自由度v(样本含量n减1)查t界值表,,拒绝H0,接受H1,可认为该山区成年男性的脉搏均数高于一般成年男性。
应注意的是,当样本含量n较大时,可用u检验代替t检验。
二、配对设计的t检验
配对设计是一种比较特殊的设计方式,能够很好地控制非实验因素对结果的影响,有自身配对和非自身配对之分。
配对设计资料的t检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。
故其检验过程与样本均数与总体均数比较的t检验类似,即:
1.建立假设
H0:
µd=0,即差值的总体均数为“0”,H1:
µd>0或µd<0,即差值的总体均数不为“0”,检验水准为0.05。
2.计算统计量
进行配对设计t检验时t值为差值均数与0之差的绝对值除以差值标准误的商,其中差值标准误为差值标准差除以样本含量算术平方根的商。
3.确定概率,作出判断
以自由度v(对子数减1)查t界值表,若,则拒绝H0,接受H1,若,则还不能拒绝H0。
三、成组设计两样本均数比较的t检验
成组设计两样本均数比较的t检验又称成组比较或完全随机设计的t检验,其目的是推断两个样本分别代表的总体均数是否相等。
其检验过程与上述两种t检验也没有大的差别,只是假设的表达和t值的计算公式不同。
两样本均数比较的t检验,其假设一般为:
H0:
µ1=µ2,即两样本来自的总体均数相等,H1:
µ1>µ2或µ1<µ2,即两样本来自的总体均数不相等,检验水准为0.05。
计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
应注意的是当样本含量n较大时(如大于100时)可用u检验代替t检验,此时u值的计算公式较t值的计算公式要简单的多。
四、t检验的应用条件和注意事项
两个小样本均数比较的t检验有以下应用条件:
(1)两样本来自的总体均符合正态分布,
(2)两样本来自的总体方差齐。
故在进行两小样本均数比较的t检验之前,要用方差齐性检验来推断两样本代表的总体方差是否相等,方差齐性检验的方法使用F检验,其原理是看较大样本方差与较小样本方差的商是否接近“1”。
若接近“1”,则可认为两样本代表的总体方差齐。
判断两样本来自的总体是否符合正态分布,可用正态性检验的方法。
若两样本来自的总体方差不齐,也不符合正态分布,对符合对数正态分布的资料可用其几何均数进行t检验,对其他资料可用t’检验或秩和检验进行分析。
秩和检验
一、学习背景和方法简介
1.问题的提出:
在实践中我们常常遇到以下一些资料,如需比较患者和正常人的血铁蛋白、血铅值、不同药物的溶解时间、实验鼠发癌后的生存日数、护理效果评分等,这类资料有如下特点:
(1)资料的总体分布类型未知;或
(2)资料分布类型已知,但不符合正态分布;或
(3)某些变量可能无法精确测量。
对于此类资料,除了进行变量变换或t’检验外,可采用非参数统计方法。
2.参数统计与非参数统计的区别:
参数统计:
即总体分布类型已知,用样本指标对总体参数进行推断或作假设检验的统计分析方法。
非参数统计:
即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。
下面我们将介绍非参数统计中一种常用的检验方法--秩和检验,其中“秩”又称等级、即按数据大小排定的次序号。
上述次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法。
二、不同设计和资料类型的秩和检验
1.配对比较的资料:
对配对比较的资料应采用符合秩和检验(Sighedranktest),其基本思想是:
若检验假设成立,则差值的总体分布应是对称的,故正负秩和相差不应悬殊。
检验的基本步骤为:
(1)建立假设;
H0:
差值的总体中位数为0;
H1:
差值的总体中位数不为0;检验水准为。
(2)算出各对值的代数差;
(3)根据差值的绝对值大小编秩;
(4)将秩次冠以正负号,计算正、负秩和;
(5)用不为“0”的对子数n及T(任取T+或T-)查检验界值表得到P值作出判断。
应注意的是当n>25时,可用正态近似法计算u值进行u检验,当相同秩次较多时u值需进行校正。
2.两样本成组比较:
两样本成组资料的比较应用Wilcoxon秩和检验,其基本思想是:
若检验假设成立,则两组的秩和不应相差太大。
其基本步骤是:
(1)建立假设;
H0:
比较两组的总体分布相同;
H1:
比较两组的总体分布位置不同;检验水准为。
(2)两组混合编秩;
(3)求样本数最小组的秩和作为检验统计量T;
(4)以样本含量较小组的个体数n1、两组样本含量之差n2-n1及T值查检验界值表;
(5)根据P值作出统计结论。
同样应注意的是,当样本含量较大时,应用正态近似法作u检验;当相同秩次较多时,应用校正公式计算u值。
3.多个样本比较:
多个样本比较的秩和检验可用Kruskal-Wallis法,其基本步骤为:
(1)建立假设;
H0:
比较各组总体分布相同;
H1:
比较各组总体分布位置不同或不全相同;检验水准为。
(2)多组混合编秩;
(3)计算各组秩和Ri;
(4)利用Ri计算出检验统计量H;
(5)查H界值表或利用卡方值确定概率大小。
应注意的是当相同秩次较多时,应计算校正Hc
4.按等级分组资料或频数表资料:
这类资料的特点是无原始值,只知其所在组段,故应用该组段秩次的平均值作为其秩次,在此基础上计算秩和并进行假设检验,其步骤与两组或多组比较秩和检验相同。
需注意的是由于样本含量较多,相同秩次也较多,应用校正后的u值和H值。
三、小结
1.多个样本两两比较的秩和检验
同样的,多个样本组比较的秩和检验,如拒绝H0,只说明比较各组的总体分布位置不同或不全相同,应在此基础上进行两两比较,常用Nemenyi法。
2.秩和检验的优缺点
秩和检验的优点是
(1)不受总体分布限制,适用面广;
(2)适用于等级资料及两端无缺定值的资料;(3)易于理解,易于计算。
缺点是符合参数检验的资料,用秩和检验,则不能充分利用信息,检验效能低。
3.应用中的注意事项:
(1)注意应用条件;
(2)编秩时相同值要取平均秩次;
(3)相同秩次较多时,统计量要校正。
方差分析
一、方差分析的基本思想
1.方差分析的概念
方差分析(ANOVA)又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
我们要学习的主要内容包括单因素方差分析即完全随机设计或成组设计的方差分析和两因素方差分析即配伍组设计的方差分析。
2.方差分析的基本思想
下面我们用一个简单的例子来说明方差分析的基本思想:
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下,
患者:
健康人:
问该地克山病患者与健康人的血磷值是否不同?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源:
(1)组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
(2)组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。
而且:
SS总=SS组间+SS组内v总=v组间+v组内
如果用均方(即自由度v去除离均差平方和的商)代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较,若F值接近1,则说明各组均数间的差异没有统计学意义,若F值远大于1,则说明各组均数间的差异有统计学意义。
实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
3.方差分析的应用条件
应用方差分析对资料进行统计推断之前应注意其使用条件,包括:
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,即偏态分布资料不适用方差分析。
对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,即若组间方差不齐则不适用方差分析。
多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方界值表。
二、方差分析的主要内容
根据资料设计类型的不同,有以下两种方差分析的方法:
1.对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析。
2.对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析。
两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:
SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:
SS总=SS处理+SS配伍+SS误差。
整个方差分析的基本步骤如下:
(1)建立检验假设;
H0:
多个样本总体均数相等。
H1:
多个样本总体均数不相等或不全等。
检验水准为。
(2)计算检验统计量F值;
(3)确定P值并作出推断结果。
三、多个样本均数的两两比较
经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。
若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。
1.多个样本均数间两两比较
多个样本均数间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:
建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。
2.多个实验组与一个对照组均数间两两比较
多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q’界值表。
分类资料统计描述
对分类变量资料进行统计描述的一般步骤,是先对观察测量得到的变量值(即观察值)进行分类汇总(即“计数”)得到分类资料频数表(属于绝对数指标),再在此基础上计算相对数指标(即两个指标之比)才能对分类变量资料进行正确的描述。
一、常用的相对数指标
1.比
又称相对比,其基本计算公式为:
比=A/B,说明A为B的若干倍或百分之几。
A、B可为绝对数、相对数或平均数。
如某市某年I区的急性传染病发病数为2433人,II区的急性传染病发病数为3033人,则II区与I区急性传染病发生数之比为3033/2433=1.25。
2.构成比
又称构成指标。
其计算公式为:
构成比=(某一组成部分的观察单位数/(同一事物各组成部分的观察单位总数)*100%。
构成比用来说明事物内部各组成部分所占比重或分布。
如上例中若全市的急性传染病发病数为12884人,则I区占全市急性传染病发病数的比重为2433/12884*100%=18.9%
又称频率指标,计算公式为:
率=(发生某现象的观察单位数)/可能发生某现象的观察单位数)*K,k为100%,万/万等。
率用来说明某现象发生的频率或强度。
如上例I区的年平均人口数为636723人,则I区该年急性传染病发病率=(2433/636723)*100000/10万=382/10万。
二、应用相对数时应注意的问题
1.计算相对数时,分母不宜过小。
2.构成比和率不能相互混淆。
两者的区别如下:
构成比
率
概念
说明事物内部各组成部分所占比重或分布
说明某现象发生的频率或强度
合计
必为100%
分率不能直接相加
改变
任一部分比重增减会影响其他部分
某一分率改变对其他无影响
3.求平均数或总率时,分子、分母应分别相加;
4.注意资料同质性、可比性;
5.样本率或构成比的比较应建立在随机抽样的基础上,并要作假设检验。
三、动态数列
1.概念:
动态数列是一系列按时间顺序排列的统计指标(可以是绝对数、相对数或平均数),用以说明事物在时间上的变化和趋势。
2.常用的分析指标:
(1)绝对增长量,有累计年增长和逐年增长之分。
(2)发展速度与增长速度,其中定基比描述变化趋势,环比用来描述指标的逐年波动情况。
(3)平均发展速度和平均增长速度,其中平均发展速度是第n年指标除以基期指标的商再开n次方。
平均增长速度是平均发展速度-1(100%)。
四、率的标准化
1.意义和基本思想:
率的标准化可在比较总率时消除混杂因素(即内部构成不同)的影响,用标准化法将资料变换为符合可比条件。
经常需要标化的指标有人口死亡率、病死率、发病率等,常见的混杂因素有年龄、病情等。
2.率标准化法的计算步骤:
(1)选取标准:
常选用全世界、全国或本地区范围较大人群作为标准,此类标准最好。
实践中也常用标化组的合计作为标准,这样做非常简单。
有时也会任选一组被标化组作为标准,这样做的效果较差。
(2)根据现有数据选用方法:
1)直接法:
已知标准人口数或标准人口年龄构成,被标化组需要知道各年龄组的率。
当已知标准组的年龄别人口数时,标准化率p'是第i个年龄组人口数Ni与第i个年龄组的死亡率pi乘积的和除以总人数N的商。
当已知标准组的年龄别人口构成时,标准化率p'是各年龄组人口构成Ni/N与该年龄组死亡率乘积的和。
2)间接法:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 常用 统计 方法