医学统计学Word文档格式.docx
- 文档编号:6429368
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:21
- 大小:25.15KB
医学统计学Word文档格式.docx
《医学统计学Word文档格式.docx》由会员分享,可在线阅读,更多相关《医学统计学Word文档格式.docx(21页珍藏版)》请在冰点文库上搜索。
频率和概率
频率(relativefrequency):
在n次随机试验中,事件A发生了m次,则比值
称为事件A在这n次试验中出现的频率。
概率的统计学定义:
数理统计学中的大数定理表明:
当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:
随机事件A发生的概率(probability)。
概率描述了随机事件发生的可能性的大小。
是一种参数。
0≤P≤1
概率的古典定义:
有限个(N)可能结果(A1,A2,A3……AN);
每个结果出现的机会相同;
任一次试验中,至少出现一种可能的结果;
任一次试验中,只出现一种可能的结果;
则在某次试验中,出现某一个结果的可能性为1/N,出现某M个结果的概率为M/N。
基本概念之七:
小概率事件
小概率事件医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。
经典的小概率事件:
瞎猫碰上死耗子
小概率原理小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。
基本概念之八:
变量的分类
在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标称为随机变量,简称变量(variable),而观察结果对应的取值称为变量值或观察值。
变量的分类
按照取值的特性:
数值变量numericalVariable定量变量:
既有顺序的意义,又有间隔的意义,可以认为是连续的;
往往有单位;
取值间的差异是可以度量的
分类变量categoricalVariable定性变量:
取值是是分散、定性的,表现为互不相容的类别和属性
无序分类unorderedcategorics:
无顺序,无间隔,仅有分类
二项分类
多项分类
有序分类orderedcategorics等级变量:
仅有顺序,无单位;
取值间的差异是不可度量的
不同分类的互相转化
数值变量→无序分类变量
数值变量→有序分类变量
有序分类变量→无序分类变量
信息量只有减少,不可增加
2
个体变异的规律性
▪个体变异(individualvariation)是同质观察对象间表现出的差异。
▪变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。
▪就个体而言:
变异是随机的(random)。
▪就总体而言:
个体变异是有规律的
▪某地所有20岁健康男生的血红蛋白√
▪某地所有20岁健康男生和女生的血红蛋白×
▪江苏和西藏所有20岁健康男生的血红蛋白×
▪某地所有20岁健康男生和女生的白细胞计数√
个体变异的规律性分布
▪就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random)。
▪就总体而言,个体变异是有规律的。
当观察值(样本含量)的个数达到足够多时,其分布将趋于稳定,并最终服从于总体分布。
Ø
变异规律的体现:
分布(distribution)
频数分布表和频数分布图
▪原因:
由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。
▪现状:
医学研究得到的原始数据(rawdata)往往是庞大的、混乱的。
▪解决:
频数分布表的基本思想:
将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;
在将频数表绘制成频数分布图。
频数表编制步骤
▪求极差选定适当的组段数后估计组距列出组段划记归组获得频数求频率,完成频数表
频数分布表的编制
▪求极差或全距(Range):
R=Xmax-Xmin
▪选定适当的组段数后估计组距(i)
组段数的选取以能反映资料的分布特征为宜
一般取8~15组
▪列出组段
组段的含义:
包括组段的下限而不含组段的上限。
如:
3.2~等价于[3.2,3.5)
第一个组段应包含最小值
最后一个组段应包含最大值
▪划记归组获得频数
常用的划记方法:
“正”;
“||||”
▪求频率,完成频数表
相应的频数除以总数即为频率
各组段的频率总和为1或者100%
频数分布所提供的信息
▪频数分布图用以表示数据的分布规律。
▪观察有无可疑值。
▪考察分布的类型。
对称分布
非对称分布(偏态分布)
■左偏态(负偏态)
■右偏态(正偏态)
▪考察分布的特征
集中位置(CentralTendency)
离散趋势(TendencyofDispersion)
偏态,正偏态和负偏态
▪分布不对称者称为偏态分布。
偏态分布又分为正偏分布和负偏分布。
▪所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;
▪所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。
描述集中位置的指标
算术均数
算术均数(arithmeticmean,mean,μ)
加权均数
均数是加权均数的一个特例
几何均数
中位数
▪中位数(median,M)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。
百分位数
▪50%分位数就是中位数
▪25%,75%分位数称四分位数(quartile)
应用中位数和百分位数时注意
▪①中位数和百分位数的计算对资料分布没有特殊要求,所有资料均可计算中位数和百分位数。
▪②中位数只受位置居中的变量值影响,与两端的极端值无关,因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。
因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。
平均数应用的注意事项
▪同质的资料计算平均数才有意义。
▪均数适用于:
单峰对称分布的资料
▪几何均数适用于:
对数变换后单峰对称的资料
▪等比资料、滴度资料、对数正态分布资料
▪中位数:
理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。
▪偏态分布、分布不明资料、有不确定值的资料
▪计算几何均数时:
▪变量值中不能有0
▪同一组变量值不能同时存在正、负值
▪若变量值全为负值,可先将负号除去,算出结果后再冠以负号
▪样本含量较少时不宜计算靠近两端的百分位数
▪平均数要与变异指标结合使用
描述离散趋势的指标:
极差
全距(range),极差
R=max-min
优点:
简单明了缺点:
①不灵敏②不稳定
四分位数间距
▪四分位数间距(inter-quartilerange)QU-QL=P75-P25
即中间一半观察值的极差。
四分位数(quartile)是两个特定的百分位数:
第25%分位数P25,和第75%分位数P75,分别记为QL和QU。
四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。
方差
标准差
“离均差平方之和平均后的方根”“均方根”
n-1称为自由度(degreeoffreedom),即“可以自由变异的程度”
因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。
▪标准差大:
分布分散、不整齐、波动大;
▪标准差小:
分布集中、整齐、波动较小。
变异系数
变异系数(coefficientofvariation,CV)
▪排除了平均水平的影响,并取消了单位。
因此变异系数常用于:
比较度量衡单位不同的两组或多组资料的变异度
比较均数相差悬殊的两组或多组资料的变异度
正确应用
▪算数均数:
适用于单峰对称分布资料;
▪几何均数:
适合于作对数变换后单峰对称分布资料;
▪中位数和百分位数:
适用于任何分布的资料;
▪中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;
▪中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。
▪因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。
▪不同质的资料应考虑分别计算平均数。
▪极差不稳定,不灵敏
▪标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
▪在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;
反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。
▪变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。
平均数与变异度
▪均数±
标准差(min,max)
▪中位数±
四分位数间距(min,max)
▪变异度小,则均数代表性好!
▪变异度大,数据分散,则均数代表性差!
▪平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!
总结
▪每个观察指标均有其特定的变异规律;
▪描述变异:
图形描述
统计量描述
✓平均数:
均数、几何均数、中位数
✓变异度:
标准差、四分位数间距、变异系数、极差
▪不同分布的指标,用不同的统计量描述;
▪用平均数与变异度共同描述。
3正态分布
正态分布的概率密度函数
●如果随机变量X的概率密度函数
则称X服从正态分布,记作X~N(,2),其中,为分布的均数,为分布的标准差。
正态分布的特征
●单峰分布;
高峰在均数处;
●以均数为中心,均数两侧完全对称。
●正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。
●有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
●正态曲线下的面积分布有一定的规律。
正态曲线下的面积规律
●X轴与正态曲线所夹面积恒等于1。
●对称区域面积相等。
●正态曲线下的面积规律
正态分布的一个显著特点
其曲线下面积完全决定于以标准差为单位从点x到µ
的离差。
●正态曲线下面积总和为1;
●正态曲线关于均数对称;
对称的区域内面积相等;
●对任意正态曲线,按标准差为单位,对应的面积相等;
●-1.64~+1.64内面积为90%;
●-1.96~+1.96内面积为95%;
●-2.58~+2.58内面积为99%。
标准正态分布
●标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。
●记为N(0,1)。
●标准正态分布是一条曲线。
●概率密度函数:
正态分布转换为标准正态分布
●若X~N(,2),作变换:
则u服从标准正态分布。
●u称为标准正态离差(standardnormaldeviation)
正态分布的应用
估计频数分布确定临床参考值范围
总结
●正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;
●正态分布是由两个参数决定:
均数和标准差;
●正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。
估计频数分布
●出生体重低于2500g为低体重儿,某市婴儿出生体重均数3200g,标准差为s=350g。
设该资料服从正态分布,试求该地低体重儿占该地所有出生婴儿的比例。
●首先计算标准离差:
●查标准正态分布表:
(-2)=0.0228
●结果:
估计低体重儿的比例为2.28%.
参考值范围(referenceinterval)
●参考值范围又称正常值范围(normalrange)。
●什么是参考值范围:
●是绝大多数正常人的某观察指标所在的范围。
●绝大多数:
90%,95%,99%等等。
●确定参考值范围的意义:
用于判断正常与异常。
●“正常人”的定义:
●排除了影响所研究的指标的疾病和有关因素的同质的人群。
参考值范围确定的原则
●选定足够例数的同质的正常人作为研究对象
●控制检测误差
●判断是否分组(性别,年龄组)
●单、双侧问题(onesidedortwosided)
●选择百分界值(90%,95%)
●确定可疑范围
参考值范围的估计方法
方法双侧单侧下限单侧上限
正态分布法
百分位数法P2.5~P97.5>
P5<
P95
例:
参考值范围的计算
●某地调查了200名成年女子的平均血清总蛋白为73.5(g/L),标准差3.9(g/L),试估计该地成年女子血清总蛋白95%的参考值范围。
单侧与双侧参考值范围
●根据医学专业知识确定!
●双侧:
白细胞计数,血清总胆固醇,
●单侧:
上限:
转氨酶,尿铅,发汞……下限:
肺活量,IQ,
4抽样误差及其规律性Samplingvariabilityanditsattributes
抽样误差
⏹由抽样引起的样本统计量与总体参数间的差别。
⏹原因:
个体变异+抽样
⏹表现:
样本统计量与总体参数间的差别不同样本统计量间的差别
⏹抽样误差是不可避免的!
⏹抽样误差是有规律的!
模拟试验
⏹假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律--抽样分布规律。
⏹考察:
不同的分布不同的样本含量对统计量的影响。
均数的模拟试验
从不同总体中进行抽样,观察均数的抽样分布规律。
正态总体偏三角分布总体均匀分布总体指数分布总体双峰分布总体
考察:
样本均数的均数与总体均数有何关系?
样本均数的标准差与总体标准差有何关系?
样本均数的分布形状如何?
不同的样本含量对上述性质的影响如何?
均数的抽样误差之特点
⏹各样本均数未必等于总体均数;
⏹样本均数间存在差异;
⏹样本均数的分布很有规律,围绕总体均数,中间多两边少,左右基本对称;
⏹样本均数的变异范围较之原变量的变异范围大大缩小;
⏹随着样本含量的增加,样本均数的变异范围逐渐缩小。
中心极限定理(centrallimittheorem)
Case1:
从正态分布总体N(μ,σ)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。
⏹样本均数的均数为μ;
⏹样本均数的标准为。
Case2:
从非正态(nonnormal)分布总体(均数为μ,方差为σ)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n>
50),样本均数也近似服从正态分布。
⏹样本均数的标准差为。
标准误(standarderror)
⏹样本统计量的标准差称为标准误。
⏹样本均数的标准差称为均数的标准误。
⏹均数的标准误表示样本均数的变异度。
⏹当总体标准差未知时,用样本方差代替,
⏹前者称为理论标准误,后者称为样本标准误。
与样本含量的关系
⏹n越大,均数的均数就越接近总体均数;
⏹n越大,变异越小,分布越窄;
⏹对称分布接近正态分布的速度,大于非对称分布。
分布越偏,接近正态分布所需样本含量就越大。
标准误的意义
⏹反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。
⏹标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。
反之亦然。
⏹标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;
而当总体一定时,样本例数越多,标准误越小。
说明我们可以通过增加样本含量来减少抽样误差的大小。
抽样误差的规律性
(1)
⏹均数的抽样误差规律:
⏹在样本含量足够大时,无论总体分布如何,其均数的分布趋于正态分布(大数定律)
⏹在样本含量较小时:
•总体为正态分布时:
正态分布
•总体为非正态分布时:
?
正态分布的标准化变化
t分布的概念
⏹实际工作中,总体方差未知。
所以,用样本方差代替总体方差,
⏹此时的分布如何?
⏹用样本方差代替总体方差,此时
不服从正态分布。
而服从t分布。
记为:
t分布的性质
⏹t分布为一簇单峰分布曲线。
⏹t分布以0为中心,左右对称。
⏹t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;
自由度逐渐增大时,t分布逐渐逼近标准正态分布;
当自由度为无穷大时,t分布就是标准正态分布。
⏹每一自由度下的t分布曲线都有其自身分布规律。
t界值表。
t分布
⏹t分布的高峰位置比u分布低,尾部高。
即相同的尾部面积对应的界值,比u分布大。
⏹例如:
P=0.05,u=1.96,而自由度为3的t分布界值,t=3.182。
t分布曲线下的面积规律
⏹双侧:
P(t≤-tα,ν)+P(t≥tα,ν)=αP(-tα,ν<
t<
tα,ν)=1-α
⏹单侧:
P(t≤-tα,ν)=α或P(t≥tα,ν)=α
t界值释义
✶双侧t0.05,10=2.228表明:
从正态分布总体中抽取样本含量n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。
P(t≤-2.228)+P(t≥2.228)=0.05
或:
P(-2.228<
t<
2.228)=1-0.05=0.95。
样本统计量的抽样分布
任何一个样本统计量均有其分布规律。
从正态分布总体中抽样:
⏹均数的抽样分布为正态分布;
⏹样本方差的分布服从2分布;
⏹样本方差之比服从F分布;
⏹t值服从t分布;
⏹……
⏹t的抽样误差规律:
⏹总体为正态时:
t~t分布
⏹总体为非正态时:
⏹样本含量较大时:
近似正态分布
⏹样本含量较小时:
?
⏹方差的抽样误差规律:
⏹在正态总体时:
方差的分布服从2分布。
⏹方差比值的抽样误差规律:
方差之比的分布服从F分布。
研究抽样分布的目的
⏹样本统计量的抽样分布规律是统计推断(statisticalinference)的理论基础。
⏹只有了解抽样分布规律,才能深刻理解统计推断的内涵。
4.2
可信区间的两个要素
可信度(1-),可靠性
一般取90%,95%。
可人为控制。
精确性
是指区间的大小(或长短)兼顾可靠性、精确性
均数的可信区间
总体均数的(1-)可信区间定义为:
影响可信区间大小的因素
可信度可信度越大,区间越宽
个体变异变异越大,区间越宽
样本含量样本含量越大,区间越窄
当样本含量较大时,例如n>100,t分布近似标准正态分布,此时可用标准正态分布代替t分布,作为可信区间的近似计算。
相应的100(1-)%可信区间为:
例4.1
随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,求该地正常成年男子脉搏总体均数95%的可信区间。
即该地正常成年男子脉搏总体均数的95%可信区间为:
70.9~76.3(次/分)。
用该区间估计该地正常成年男子脉搏总体均数的可信度为95%。
例4.2
某市2001年120名7岁男孩身高均数为123.62cm,标准差为4.75cm,计算该市7岁男童总体均数90%的可信区间。
均数之差可信区间的计算
合并方差与均数之差的标准误
•合并方差(方差的加权平均)
•均数之差的标准误
与均数之差有关的抽样分布
“均数之差”与“均数之差的标准误”之比,
服从自由度=n1+n2-2的t分布。
样本含量较大时,服从标准正态分布。
正确理解可信区间的涵义
•可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。
所谓95%的可信度是针对可信区间的构建方法而言的。
•以均数的可信区间为例,其涵义是:
如果重复100次抽样,每次样本含量均为n,每个样本均按构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。
95%可信区间的含义
按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数
正确理解可信区间的涵义
在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值。
下列说法正确吗?
算得某95%的可信区间,则:
总体参数有95%的可能落在该区间。
有95%的总体参数在该区间内。
该区间包含95%的总体参数。
该区间有95%的可能包含总体参数。
该区间包含总体参数,可信度为95%。
√
可信区间与参考值范围的区别
•可信区间用于估计总体参数,总体参数只有一个。
•参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。
•95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%
•95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。
标准差与标准误的联系
都是变异指标。
当n不变时,标准差↑,标准误↑
标准差与标准误的区别
标准差描述原始数据的离散程度;
标准误反映均数的抽样误差大小。
标准差衡量样本均数对原始数据的代表性,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学