医学统计学总结.docx
- 文档编号:13219328
- 上传时间:2023-06-12
- 格式:DOCX
- 页数:26
- 大小:33.92KB
医学统计学总结.docx
《医学统计学总结.docx》由会员分享,可在线阅读,更多相关《医学统计学总结.docx(26页珍藏版)》请在冰点文库上搜索。
医学统计学总结
医学统计学总结
一、绪论
1,医学统计学:
运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。
2,医学统计学得主要内容:
1)统计研究设计调查研究设计与实验研究设计
2)医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。
A:
资料得搜集与整理B:
常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图C:
统计推断,如参数估计与假设检验。
3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:
1)设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料
A,搜集材料得原则及时、准确、完整
B,统计资料得来源医学领域得统计资料得来源主要有三个方面。
一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。
C,资料贮存
3)整理资料a检查核对b设计分组c拟定整理表d归表
4)分析资料统计分析包括统计描述与统计推断
4,同质(homogeneity):
指被研究指标得影响因素相同。
变异(variation):
同质基础上得各观察单位间得差异。
变量(variable):
收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项特征进行测量或观察,这种特征称为变量
变量值:
变量得观察结果或测量值。
变量类型
变量值表现
实例
资料类型
数值变量
离散型
定量测量值,有计量单位
产前检查次数
计量资料
连续型
身高
分类变量
无序
二分类
对立得两类属性
性别(男女)
计数资料
多分类
不相容得多类属性
血型(A,B,O,AB)
有序
多分类
类间有程度差异得属性
受教育程度(小学,中学,高中,大学…)
等级资料
5,总体(population)根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。
总体具有得基本特征就是:
同质性
样本(sample)从总体中随机抽取部分观察单位,其变量值得集合构成样本。
样本必须具有代表性。
代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。
统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。
参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。
抽样误差(samplingerror):
由于个体差异得存在,即使在同一整体中随机抽取若干样本,各样本得统计量往往不等,统计量与参数也会有所不同。
这种因抽样研究引起得差异称抽样误差。
随机事件(randomevent)对随机试验得各种可能结果得集合。
概率(probability)描述随机事件发生得可能性大些哦得一个度量。
小概率事件若随机事件A得概率P(A)≤α,习惯上,α=0、05时,就称A为小概率事件。
其统计学意义就是小概率事件在一次随机试验中认为不会发生。
抽样误差
1,抽样误差(samplingerror)由抽样而造成得样本统计量与总体参数之间得差异或各样本统计量之间得差异。
在医学统计学中,常把由抽样造成得样本均数与总体均数间得差异称为均数得抽样误差;由抽样造成得样本率与总体率之间得差异称为率得抽样误差。
2,样本均数得标准差(简称标准误,standarderror)反映均数得抽样误差大小得指标。
大,抽样误差大;反之,小,抽样误差小。
(3、1)
实际工作中往往未知得,可用样本标准差s作得估计值,计算标准误得估计值。
(3、2)
3,标准误得用途:
a,衡量样本均数得可靠性;b,估计总体均数得置信区间;3,用于均数得假设检验。
4,标准误得估计值得用途:
a,描述抽样误差得大小;
b,总体参数得估计;
c,用来进行假设检验。
5,率得抽样误差:
由抽样造成得样本率与总体率得差异称为率得抽样误差。
衡量率得抽样误差大小得指标就是率得标准误。
越小,率得抽样误差越小;越大,率得抽样误差越大。
(3、3)
其中为总体率。
实际工作中,由于往往就是未知得,可用样本率p作得估计值,计算率得标准误得估计值。
(3、4)。
标准差(s)
标准误
计算公式s=
(1)表示观察值得变异程度
(1)估计均数得抽样误差得大小
(2)计算变异系数CV=100%
(2)估计总体均数得可信区间
(,)
(3)确定医学参考值范围
(3)进行假设检验
(4)计算标准误
简述标准差、标准误得区别与联系?
区别:
(1)含义不同:
标准差S表示观察值得变异程度,描述个体变量值(x)之间得变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数得代表性越强。
标准误估计均数得抽样误差得大小,就是描述样本均数之间得变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n得关系不同:
n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:
标准差表示x得变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间与假设检验。
联系:
二者均为变异度指标,样本均数得标准差即为标准误,标准差与标准误成正比。
标准差:
标准误:
二、分布
正态分布
1,正态分布得函数
其中为总体均数,为总体标准差,为圆周率,为自然对数得底,且仅为变量。
以为横轴,以为纵轴,当均数与标准差已知时即可绘出正态分布曲线。
为应用方便,将式中进行变量变换,使原来得正态分布变为得标准正态分布,亦称分布。
被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布得密度函数。
(2、17)
(2、18)
2,正态分布得特征
(1)正态曲线(normalcurve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数(位置)与标准差(形状)。
当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。
当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。
通常用N(,)表示均数为、方差为得正态分布。
用(0,1)表示标准正态分布。
(4)正态分布在1处各有一个拐点。
(5)正态曲线下面积得分布有一定规律。
3,常用得两个区间:
1、96及2、58得区间面积分别占总面积得95%及99%。
4,正态分布得应用
1),制定医学参考值范围
a,正态分布法适用于正态或近似正态分布得资料双侧界值:
;单侧上界:
或单侧下界:
。
b,对数正态分布法适用于对数正态分布资料双侧界值:
;单侧上界:
或单侧下界
c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值得资料。
双侧界值:
与;单侧上界:
或单侧下界:
。
2)正态分布就是多种统计方法得理论基础如t分布,F分布,分布都就是在正态分布得基础上推导出来得,分布也就是以正态分布为基础得。
另外t分布,二项分布,poisson分布得极限为正态分布,一定条件下可按正态分布原理处理。
t分布
1,t分布:
(3、5)
t分布得特征为:
1.以0为中心,左右对称得单峰分布。
2.t分布曲线形态变化与自由度得大小有关。
自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。
当=时,t分布为u分布。
t界值表附图中非阴影部分面积得概率为:
2,总体均数得估计:
用样本指标估计总体参数称为参数估计,就是统计推断得一个重要方面。
总体均数得估计有2种方法。
一就是直接用统计量估计总体参数,称为点值估计。
由于抽样误差得存在,此法很难估计准确。
二就是区间估计(intervalestimation)法。
区间估计就是按一定得概率100(1-)%估计总体均数所在得范围,亦称可信区间(confidenceinterval,CI)。
常取得可信度为95%与99%,即95%可信区间与99%可信区间。
计算方法有3种:
(1)未知且n小按t分布原理用式(3、6)计算可信区间。
由于将代入,得
则总体均数得100(1-)%可信区间得通式为:
(3、6)或写成(,)。
(2)未知,但n足够大时(n>100)t分布逼近u分布,按正态分布原理,用式(3、7)估计可信区间。
()(3、7)
(3)已知按正态分布原理,用式(3、8)估计可信区间。
()(3、8)
标准正态分布(u分布)与t分布有何异同?
答:
相同点:
t分布与标准正态分布(u分布)都就是以0为中心得正态分布。
标准正态分布就是t分布得特例(自由度就是无限大时)。
不同点:
t分布为抽样分布,u分布为理论分布;t分布比标准正态分布得峰值低,且尾部翘得更高;t分布受自由度大小得影响,随着自由度得增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
二项分布
1,二项分布(binomialdistribution)就是对只具有2种互斥结果得离散型随机事件得规律性进行描述得一种概率分布。
二项分布概率公式:
(3、9)
式中n为独立得贝努力试验次数,为成功得概率,(1-)为失败得概率,X为在n次贝努力试验中出现“成功”得次数,表示在n次试验中出现X得各种组合数,在此称为二项系数(binomialcoefficient)。
2,二项分布得应用条件:
(1)各观察单位只能具有相互对立得一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)得概率为,其对立结果得概率为1-,实际工作中要求就是从大量观察中获得比较稳定得数值。
(3)n次试验在相同条件下进行,且各个观察单位得观察结果相互独立。
3,二项分布得性质:
A,二项分布得均数与标准差在二项分布得资料中,
当与n已知时,它得均数及其标准差如下:
=n(3、11)
(3、12)
若均数与标准差不用绝对数表示,而就是用率表示时,即对式(3、11)(3、12)分别除以n,得:
(3、13)
(3、14)
就是样本率得标准误得理论值,当未知时,常用样本率p作为得估计值,则:
(3、15)
B,二项分布得累计概率二项分布得累计概率(cumulativeprobability)常用得有左侧累计与右侧累计2种方法。
从阳性率为得总体中随机抽取n个个体,则
(1)最多有k例阳性得概率
(3、16)
(2)最少有k例阳性得概率
(3、17)
D,二项分布得形状取决于与n得大小:
(1)当=0、5时,分布对称;当<0、5时,分布呈正偏态,且固定n时,越小,分布越偏;当>0、5时,分布呈负偏态,且固定n时,越大,分布越偏。
(2)对固定得,分布随n得增大趋于对称。
4,总体率得估计
总体率得估计也有点估计与区间估计,点估计就是简单地用样本率来估计总体率;区间估计就是求出总体率得可能范围。
样本率得理论分布与样本含量n、阳性率p得大小有关,所以需要根据n与p得大小不同,分别选用下列2种方法。
(一)查表法当样本含量n较小,如n≤50,特别就是p很接近于0或1时,按二项分布得原理估计总体率得可信区间。
(二)正态近似法当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率得p得抽样分布近似正态分布,总体率得可信区间可按下列式(3、17)进行估计。
(3、17)
Poisson分布
1,Poisson分布泊松分布就是在很小,样本含量n趋向于无穷大时,二项分布得极限形式。
更多地用于研究单位时间、单位人群、单位空间内,某罕见事件发生得次数得分布。
X=0,1,2(3、19)
式中=n为Poisson分布得总体均数,X为单位时间或单位空间内某事件得发生数,e为自然对数得底,约等于2、71828。
在实际运算中,P(X)亦可按式(3、20)作递推计算。
(3、20)
2,Poisson分布应用条件:
A,要求事件得发生就是相互独立
B,发生得概率相等
C,结果就是二分类
3,Poisson分布得性质:
A,该分布就是一种单参数得离散型分布,其参数为,它表示单位时间或空间内某件事平均发生得次数,又称强度参数。
B,Poisson分布得方差与均数相等,即=
C,Poisson分布得累计概率
(1)最多为k次得概率
(2)最少为k次得概率
4,Poisson分布得图形
已知,就可按公式计算得出X=0,1,2,时得P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可会出Poisson分布得图形。
值越小,分布越偏,随着得增大,分布越趋于对称,当=20时,分布接近正态分布,当=50时,可以认为Poisson分布呈正态分布N(,)按正态分布处理。
5,Poisson分布具有可加性
6,总体参数得估计
由样本均数(样本计数)X估计总体均数也有点(值)估计与区间估计,区间估计得方法,需视样本计数(样本均数)X得大小而定,X小时用查表法,X大时用正态近似法。
(一)查表法
当样本计数X时,用X值查附表poisson分布得可信区间,可得总体均数得95%或99%可信区间。
(二)正态近似法
当样本计数X>50时,可用正态近似原理下面公式求总体均数得95%或99%可信区间
正态分布、二项式与泊松分布得关系:
二项分布(binomialdistribution):
对只具有两种互斥结果得离散型随机事件得规律性进行描述得一种概率分布。
Poisson分布就是在π很小,样本含量n趋于无穷大时,二项分布得极限形式。
当v=∞时,t分布即为u分布,趋向正态分布。
可信区间与参考值范围得区别:
意义、计算公式与用途均不同。
(1)参考值范围就是指同质总体内包括百分之几十个体值得估计范围。
而可信区间就是指在百分之几十得可信度估计得总体参数得所在范围。
(2)同样得百分之几十,参考值范围就是样本范围,可信区间就是指可信度范围,二者有着本质得不同。
(3)从意义来瞧,95%参考值范围就是指同质总体内包括95%个体值得估计范围,而总体均数95%可信区间就是指按95%可信度估计得总体均数得所在范围。
(4)从计算公式瞧,若指标服从正态分布,95%参考值范围得公式就是:
±1、96s。
总体均数95%可信区间得公式就是:
。
前者用标准差,后者用标准误。
前者用1、96,后者用α为0、05,自由度为v得t界值。
(5)从用途上瞧,可信区间用来估计总体均数,参考值范围用来判断观察对象得某项指标就是否正常。
简述检验假设与可信区间得联系与区别。
答:
(1)可信区间用于推断总体参数所在得范围,假设检验用于推断总体参数就是否不同。
前者估计总体参数得大小,后者推断总体参数有无质得不同。
(2)可信区间也可回答假设检验得问题。
但可信区间不能提供确切得P值范围,只能给出在α水准上有无统计意义。
(3)可信区间还可提示差别有无实际意义。
统计图表
1,绘制统计图得基本要求:
A,根据资料性质与分析目得据顶适当图形。
B,标题应说明资料得内容、时间与地点,一般位于图得下方。
C,图得纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由小到大。
D,为使图形美观并便于比较,统计图得长宽比例一般为7:
5,有时为了说明问题也可以变动。
E,比较、说明不同得事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。
2,常用统计图得适用条件与绘制
1.条图(bargraph)用等宽长条得高度表示按性质分类资料各类别得数值大小,用于表示它们之间得对比关系。
2.圆图(piegraph)圆形图适用于百分构成比资料,表示事物各组成部分所占得比重或构成。
3.百分条图(percentbar)意义及适用资料同圆图,也称构成条图。
4.线图(linegraph)线图适用于连续性资料,以不同得线段升降来表示资料得变化,并可表明一事物随另一食物(时间)而变动得情况。
5.直方图(histogram)直方图用于表达连续性资料得频数分布。
6.散点图(scatterdiagram)散点图以直角坐标系中各点得密集程度与趋势来表示两现象间得关系。
常用在对资料进行相关分析之前适用。
单变量资料
一,数值变量
统计描述
1,频数表得编制求全距定组段与组距列频数表画频数图
2,频数分布得两个重要特征:
集中趋势与离散趋势
3,频数分布可以分为正态分布与偏态分布
4,频数表得用途:
揭示资料分布类型与分布特征,以便选取适当得统计方法;便于进一步计算指标与统计处理;便于发现某些特大或者特小得可疑值。
5,集中趋势得描述:
均数几何均数中位数百分位数
6,均数(mean):
算术均数得简称。
常用==表示。
7,中位数(median):
一组由小到大按顺序排列得观察值中位次居中得数值,用M表示。
可用于描述任何分布,特别就是偏态分布资料以及频数分布得一端或两端无确切数据资料得中心位置。
8,百分位数(percentile)就是一种位置指标,用表示。
一个百分位数P将一组观察值分为两部分,理论上有x%得观察值比它小,有(100-x)%得观察值比它大。
可用于确定非正态分布资料得医学参考值范围。
9,离散趋势得描述:
全距(range)四分位数间距(quartile)方差标准差
10,全距(range)亦称极差,为一组同质观察值中最大值与最小值之差。
反映个体差异得范围,优点就是计算简单,缺点就是:
1)只考虑最大最小值之间得差异,不能反映组内其她观察值得变异度;2)样本含量相差悬殊时不宜用全距比较。
11,四分位数间距(quartile)上四分位数与下四分位数之差。
常用于描述偏态频数分布以及分布得一端或两端无确切数值资料得离散程度。
12,方差(variance)离均差得平方与表示。
13,标准差(standardvariance)得作用:
a,估计变量值得离散程度b,计算变异系数c,与均数结合,估计变异值得频数分布范围d,计算标准误
(总体)s=(样本)
14,变异系数(coefficientofvariation)常用于比较度量单位不同或均数相差悬殊得两组或多组资料得变异度。
CV=100%
假设检验
1,假设检验(hypothesistest)亦称显著性检验(significancetest),其基本思想就是先对总体得参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当得方法,推断此假设应当拒绝或不拒绝。
2,假设检验得一般步骤:
(1)建立假设与确定检验水准:
根据实际情况确定单、双侧检验,建立假设,确定检验水准;
(2)选定检验方法与计算统计量:
根据设计得类型及研究目得选择合适得检验方法并计算出对应得统计量;
(3)确定P值并做出推断结论。
若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义
3,假设检验时应注意得事项:
(1)要有严密得抽样研究设计;样本必须就是从同质总体中随机抽取得,要保证组间得均衡性与资料得可比性,可能影响结果得非处理因素在对比组间应尽可能相同或相近;
(2)正确选择检验方法;根据现有得资料类型、设计类型、分析目得、样本含量等因素选用适当得检验方法,如不符合条件可做适当转换;
(3)正确理解“差别无显著性”得含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析得指标在实际应用上就有“显著效果”。
(4)检验假设得推断结论为概率结论,不能绝对化:
检验水准人为规定,就是相对得,报告结论时应列出检验统计量与P值得确切范围。
(5)注意就是单侧检验还就是双侧检验
I型错误与II型错误:
I型错误(typeIerror)拒绝了实际上成立得,即样本原本来自得总体,由于抽样得偶然性得到了较大得t值,所以拒绝了,接受了,这类弃真错误称为第一类错误,犯第一类错误得概率就是。
II型错误(typeIIerror)就是不拒绝实际上不成立得,即“存伪”即样本原本来自得总体,但就是由于抽样得偶然性,得到了较小得t值,得到了较大得P值,没有拒绝,这类存伪错误称为第二类错误,犯第二类错误得概率就是1-
正态性检验:
用均数与标准差描述资料得分布特征,对例数n较小得样本进行t检验时,首先要求样本取自正态分布得总体。
两个方差得齐性检验:
两样本均数比较得t检验与多个样本均数比较得方差分析要求各样本所来自得总体方差相等。
两样本方差得齐性检验:
(4、12)
式中为较大得样本方差,为较小得样本方差,为分子得自由度,为分母得自由度,相应得样本例数分别为与。
当两总体方差齐同时,F值一般不会离1太远;若算得得F值较大,大于我们规定得界值时,就认为两样本所在总体得方差不齐。
t检验
t检验:
常用于总体标准差未知且样本含量较小时样本均数与总体均数得比较,成组设计得两个小样本得均数得比较及配对设计得两样本均数得比较。
t检验得应用条件:
a,n≤50b,样本来自正态分布得总体c,两样本均数比较时要求两样本总体方差相等。
1,单样本t检验(onesamplet-test):
样本均数与已知总体均数比较,目得就是推断样本所代表得未知总体均数与已知总体均数有无差别。
()(4、1)
式中为样本均数,为已知总体均数,s为样本标准差,n为样本含量,为自由度。
步骤如下(可为u检验)
1)建立假设,确定检验水准。
H0:
μ=μ0H1:
μ≠μ0
α=0、05
2)计算统计量。
已知,(总体均数)μ0=,n=,=,s=
3)确定P值,做出推断结论。
按v=n-1,查t界值表,得P>0、05(或P<0、05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?
与?
有差异。
2,配对设计资料得t检验分为3种情况:
①将受试对象按一定条件配成对子(同种属、同体重、同年龄、同性别等),再随机分配每对中得2个受试对象到不同得处理组;②同一受试对象分别接受2种不同处理,其目得就是推断2种处理得效果有无差别;③同一受试对象处理前后得比较,其目得就是推断某种处理有无作用。
配对设计资料得t检验(pairedt-testfordependentsamples)得基本思路:
首先计算出各对差值d得均数,当2种处理结果无差别或某种处理不起作用时,理论上差值得总体均数应该为0,故可将配对设计资料得t检验视为样本均数与总体均数得比较。
(4、2)
式中为样本中各对差值d得均数,为样本差值得标准差,n为对子数,为自由度。
先列表求差值d与
1)建立假设,确定检验水准。
H0:
μd=0H1:
μd≠0
α=0、05
2)计算统计量。
已知,n=,∑d=,∑=
3)确定P值,做出推断结论。
按v=n-1,查t界值表,得P>0、05(或P<0、05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?
。
3,成组设计资料两样本均数比较得t检验(two-samplet-testforindependentsamples):
在临床医学研究中,进行配对设计比较困难,一般分别从2个总体中随机抽样,进行成组设计两样本均数得比较,目得就是推
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 总结