统计学.docx
- 文档编号:2121180
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:16
- 大小:24.47KB
统计学.docx
《统计学.docx》由会员分享,可在线阅读,更多相关《统计学.docx(16页珍藏版)》请在冰点文库上搜索。
统计学
1.同质(homogeneity):
统计学中,若某些观察对象具有相同的特征或属性,称之为同质或具有同质性。
2。
变异(variation):
将同质个体的某项特征或属性的观察值或测量值之间的差异称为变异。
3.总体(population):
是根据研究目的确定的所有观察单位某种特征或属性的观察值或测量值的集合。
4。
样本(sample):
是从总体中随机抽取的具有代表性的部分观察单位的集合。
样本含量(samplesize):
样本中包含的观察单位个数称为样本含量。
5.参数(parameter):
反映总体特征的指标称为参数,一般是未知的,常用希腊字母表示。
6.统计量(statistic):
根据样本观察值计算出来的指标称为统计量,常用拉丁字母表示。
7.变量(variable):
每个观察单位的某项特征或属性称为变量。
8.资料(data):
变量值的集合称之为资料。
9.定量资料(quantitativedata):
亦称计量资料,其变量值是定量的,表现为数值大小,一般有度、量、衡单位。
10.定性资料(qualitativedata):
亦称分类资料,其观察值是定性的,表现为互不相容的类别或属性,一般无度、量、衡单位。
(1)计数资料(countdata):
指将观察单位按某种类别或属性进行分组,清点各组观察单位数所得的资料。
①二项分类资料
②无序多项分类资料
(2)等级资料(ordinaldata):
亦称有序多分类资料,是将观察单位按某特征或属性的程度或等级顺序分组,清点各组观察单位数所得的资料。
11.抽样研究(samplingresearch):
从总体中随机抽取样本,通过样本信息推断总体特征的研究方法称为抽样研究。
12.抽样误差(samplingerror):
由随机抽样造成的样本统计量与总体参数之间、样本统计量之间的差异称为抽样误差。
13.概率(probability):
是随机事件发生可能性大小的数值度量。
概率通常用P表示,其大小介于0与1之间,即0≦P≦1.
14.频率:
在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。
频率是概率的估计值。
15.概率与统计学的关系:
一般常将小于0.05或小于0.01称为小概率事件,表示某事件发生的可能性很小、是不可能发生的事件。
统计学中的许多结论都是根据概率得到的。
16.调查研究的特点
1.不能人为施加干预措施
2.不能随机分组
3.很难控制干扰因素
4.一般不能下因果结论
17.调查研究的类型
(一)根据调查的抽样比例划分
1.全面调查
2.抽样调查
(二)根据时间划分
1.横断面调查
2.病例对照研究
3.队列研究
4.回顾性队列研究
18.常用抽样方法
一、单纯随机抽样
二、系统抽样
三、分层抽样
四、整群抽样
19.单纯随机抽样(simplerandomsampling):
是先将调查总体的全部观察单位统一编号,然后采用随机数字表、统计软件或抽签等方法之一随机抽取n(样本大小)个编号,由这n个编号所对应的n个观察单位构成研究样本。
特点:
单纯随机抽样是最基本的抽样方法,也是其它抽样方法的基础。
优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,给观察单位逐一编号甚为繁复,有时难以做到。
20.系统抽样(systematicsampling),又称机械抽样或等距抽样。
特点
优点是易于理解、操作简便;被抽到的观察单位在总体中分布均匀,抽样误差一般比单纯随机抽样小。
缺点是在某些特殊情形下,会出现偏性或周期性变化;无计算抽样误差的专用公式,一般用单纯随机抽样的公式来代替。
21.分层抽样(stratifiedsampling)是先按对观察指标影响较大的某项或某几项特征,将总体分成若干层(strata),该特征的测定值在层内变异较小、层间变异较大,然后分别从每一层内随机抽取一定数量的观察单位结合起来组成样本。
特点
优点是抽样误差小;各层可以独立进行统计分析;尤其适合大规模的调查。
缺点是事先要对总体进行分层,操作麻烦。
但实际调查中同时须调查多个指标,且考虑调查的行政组织需要,往往用经济状况(与健康水平有关)、地理位置(与经济状况有关)或行政区划(与调查的组织管理有关)作为分层的特征。
22.整群抽样(clustersampling)是将总体划分为群(初级观察单位),各群由次级观察单位组成。
随机抽取一部分群,调查抽中群的全部次级观察单位。
特点
整群抽样的优点是对大规模的抽样调查易于组织和操作,可节省人力财力。
缺点是抽样误差大。
23.各种抽样方法的存在抽样误差,一般是:
整群抽样(单纯随机抽样(系统抽样(分层抽样。
24.实验研究(experimentalstudy)是指研究者根据研究目的人为地对受试对象施加处理因素,控制混杂因素,观察、总结处理因素的效应的一种研究方法。
25.实验设计的特点:
人为施加干预措施
可随机分组
观察方向是前瞻
一般能下因果结论
26.实验设计的分类:
(1)根据研究对象划分
动物实验(animalexperiment):
以动物作为研究对象。
在动物实验设计中,可严格地控制条件,包括有毒的环境、温度、湿度等。
临床试验(clinicaltrial):
以病人为研究对象。
设计时必须周密考虑,设计相应措施控制误差和偏倚,以保证研究结果真实可靠。
社区干预试验(communityinterventiontrial):
在社区的一般人群中进行,持续时间一般较长,目的是通过控制某些危险因素或施加某些保护性措施,了解其在人群中的效应。
(2)根据研究因素、水平数以及交互作用划分
单因素设计
两因素设计
三因素设计
多因素多水平的研究
考虑交互作用的设计
(3)根据实验组数划分
两组比较
多组比较
27.处理因素(studyfactor,treatment):
指研究者施加于受试对象的因素(如某种药物、某种手术等),可分为单因素和多因素。
28.混杂因素(confounder):
指影响实验效应并与处理因素同时存在的非处理因素。
通常在实验组和对照组中分布不均匀,因而导致处理因素与实验效应之间的联系被歪曲。
29.水平(level):
指同一处理因素在数量上或强度上的不同程度。
如不同的药物种类或药物剂量就是不同的水平。
30.受试对象(studysubjects):
是处理因素作用的客体或对象。
包括人和动物
31.实验效应(effect):
是处理因素作用于受试对象后出现的反应(response)和结局(outcome),它通过指标的选择和指标的观察来体现。
指标的选择:
遵循客观性、灵敏度、精确性原则。
指标的观察:
实验效应的观察应避免偏性,设计时应采用盲法(blindmethod)。
包括单盲和双盲。
32.对照(control):
是指除了试验组外,再设置一个或多个对照组进行同步试验,以比较试验组的效应情况。
33.对照(control)的意义:
意义在于使处理因素和非处理因素的差异有一个科学对比,鉴别处理因素与非处理因素之间的效应差异,消除或减少实验误差。
34.对照的基本形式:
(1)空白对照不给对照组施加任何处理因素。
这种对照只有在处理因素很强,非处理因素很弱的情况下才能使用。
在临床试验中,一般不用空白对照。
(2)安慰剂对照
安慰剂(placebo)的概念:
安慰剂是一种无药理作用的“假药”,其外观如剂型、大小、颜色、重量、气味及口味等与实验药物一致,但不含实验药物的有效成分。
安慰剂对照的目的:
克服研究者、受试对象、评价者等由于心理因素所形成的偏倚。
(3)标准对照不设立专门的对照组,用现有的标准疗法或药物作对照。
(4)实验对照不给对照组施加处理因素,但施加某种实验因素。
如在观察中药雾化喷剂对于慢性咽炎的治疗作用时,为排除单纯雾化喷剂刺激作用的效应,设立不加中药的水液雾化喷剂组,这里的水液雾化喷剂为实验因素。
(5)自身对照对照与实验在同一受试者身上进行。
例如用药前后,身体对称部位,一般情况下还要求设立平行对照。
(6)历史对照用过去的研究结果作对照。
如牛痘疫苗预防天花,某种中药治愈胃癌,某种药物能戒毒等。
(7)相互对照几种实验组互为对照,比较几种处理因素的实验效应之强弱。
如用白芨冲剂、急支糖浆、止咳丸治疗儿童急性气管炎,三种药物可以互为对照,以比较各种药物的疗效好坏。
35.随机化(randomization):
所谓随机化,就是每一个受试对象都有同等的机会被分配到不同的实验组和对照组。
36.随机化的意义:
使样本具有较好的代表性,使各组受试对象在重要的非处理因素方面具有较好的均衡性,提高实验结果的可比性。
37.随机化包括随机抽样和随机分组
随机抽样指保证总体中的每一个个体都有同等的机会被抽出来作为样本。
随机分组指保证样本中的每一个个体都有同等的机会被分配到实验组或对照组。
38.随机化(randomization)的方法:
简单随机化(simplerandomization)
区组随机化(blockrandomization)
39.重复(replication):
是指在相同实验条件下进行多次研究或多次观察,以提高实验的可靠性和科学性。
40.均衡原则(balance):
又称齐同对比原则,指试验组和对照组或各实验组之间,除了处理因素以外,其它一切条件应尽可能相同或一致。
41.实施均衡原则的常用措施
(1)交叉均衡法是在各试验组中又各设立试验和对照的方法,以使两组的非处理因素均衡一致。
(2)分层均衡法是将非处理因素按不同水平划分为若干个单位组(层),然后在每个单位组(层)内安排处理因素。
42.选择偏倚(selectionbias):
是指在研究对象的选取过程中,由于选取方式不当,导致入选对象与未入选对象之间存在系统差异,由此造成的偏倚称为选择偏倚。
43.选择偏倚的控制:
严格制定入选标准、排除标准;遵循随机化原则;减少脱落或失访等
44.信息偏倚(informationbias):
又称测量偏倚(measurementbias)或观察偏倚(observationbias),是来自于测量或信息资料收集方法的问题,使得获取的资料产生了系统误差。
45.混杂偏倚(confoundingbias):
是指暴露因素与疾病发生的相关(关联)程度受到混杂因素的歪曲或干扰,导致产生的偏倚。
46.完全随机设计(completelyrandomdesign):
又称为随机对照试验(randomizedcontrolledtrial,RCT),是将受试对象按照随机分配的原则分配到实验组和对照组中,然后给予不同的处理因素,对各组的效应进行同期平行观察,最后比较各组的观察指标有无差别。
应用范围:
只有一个研究因素时,不需要进行配伍或者无法配伍就选用完全随机设计,应用于动物实验和临床疗效观察研究。
47.配对设计(paireddesign):
是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同的处理组。
(1)自身对照设计
(2)异体对照设计
48.随机区组设计(randomizedblockdesign):
又称为配伍设计,是配对设计的扩大。
是将几个条件相同的受试对象划成一个区组,将区组中的受试对象采用随机的方法,分配到不同的对比组中,接受不同的处理。
计注意事项:
(1)要区别何为第一因素,何为第二因素
(2)配伍的条件不能太多
(3)在动物实验中易于实施
49.交叉设计(cross-overdesign):
是一种特殊的自身对照设计,按事先设计好的试验次序(sequence),在各个时期(period)对研究对象先后实施各种处理,以比较各处理组间的差异。
可分两阶段和多阶段交叉设计。
适用范围:
病程较长的慢性疾病
特点:
(1)优点:
节约样本含量
能控制个体差异和时间对处理因素
每个受试对象同时接受处理和对照因素
(2)缺点:
每个处理时间不能太长
受试对象的状态发生根本变化时后一阶段的处理将无法进行
受试对象一旦在某一阶段退出试验,就会造成该阶段及其以后的数据缺失,增加统计分析的困难
50.频数表(Frenquencytable):
表达变量取值及其不同取值频数分布情况的统计表称为频数分布表,简称频数表(frequencytable)。
51.极差(range):
找出一组观察值中的最大值与最小值,其差值即为极差(或全距),用R表示。
集中趋势的描述
52.定量资料集中趋势的描述,常用平均数(average)——表达一组同质定量数据的平均水平或集中位置。
53.算术均数(arithmeticmean):
又称均数(mean),是用一组观察值相加除以观察值的个数所得。
样本均数用,总体均数用。
(1)计算方法
直接法:
样本含量较少
加权法:
相同观察值较多或频数表资料
(2)应用:
均数适用于对称分布特别是正态分布资料平均水平的描述。
54.几何均数(geometricmean):
是n个观察值乘积的n次方根,又称倍数均数,用G表示。
(1)计算方法:
直接法:
样本含量较少
加权法:
相同观察值较多或频数表资料
(2)应用及注意事项
几何均数适用
①对数正态分布
②等比级数资料
观察值中不能有0
观察值不能有正有负
55.中位数与百分位数
中位数(median):
将一组观察值由小到大排序后,居于中间位置的数值即为中位数,用M表示。
(1)计算方法:
直接法:
观察值个数较少
频数表法:
频数表资料
百分位数(percentile):
是指将一组观察值由小到大排序后,将其平均分成100等份,对应于每一分割位置上的数值就称为一个百分位数,用表示。
(2)中位数与百分位数的应用
中位数:
偏态分布资料
一端或两端无确切值
总体分布不明
百分位数:
非正态分布资料
离散趋势的描述
离散趋势是频数分布的另一特征,反映了观察值之间的变异情况,只有将集中趋势与离散趋势结合起来描述才能全面反映定量资料的数量特征。
描述离散趋势指标:
极差;四分位间距;标准差;变异系数
56.极差(range,R):
亦称全距,是一组同质观察值中最大值()与最小值()之差。
极差越大表示数据离散程度越大
57.极差描述离散趋势的局限
(1)只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度
(2)样本含量越大,极差可能越大
58.四分位数间距(inter-quartilerange,Q):
为上四分位数QU(即P75)与下四分位数QL(即P25)之差。
59.每个观察值x与间的变异称为离均差
方差适用:
描述对称分布特别是正态分布资料的离散程度。
60.方差开方后即与原数据的度量单位相同,这就是标准差(standarddeviation)
标准差适用:
描述对称分布特别是正态分布资料的离散程度。
61.变异系数(coefficientofvariation,简记为CV):
是一组观察值的标准差与其均数的比值。
适用于:
度量衡单位不同的资料
单位相同但均数相差悬殊的两组或多组资料
三种平均数比较
四个离散趋势指标的意义及应用
医学参考值范围(referencevalue):
亦称正常值范围,指绝大多数“正常人”的解剖、生理、生化等指标的波动范围。
制定医学参考值范围的注意事项:
要确定一批样本含量足够大的“正常人”
根据研究目的和使用要求选定适当的百分界值,通常使用90%、95%、99%的参考值范围,95%用得较多
根据专业知识确定单侧或双侧界值
根据资料的分布选用恰当的计算方法
(1)正态分布法
(2)百分位数法
制定医学参考值范围常用方法:
正态分布法:
适用于正态或近似正态分布的资料
百分位数法:
偏态分布资料以及资料中一端或两端无确切数值
绝对数:
表示某事物在某时、某地发生的实际水平。
相对数:
两个相关指标的比值,便于相互比较与分析。
率(rate):
是指某现象实际发生数与可能发生某现象总数之比,用以说明某现象发生的频率或强度。
常以百分率,千分率,万分率,十万分率等表示。
构成比(Constituentratio):
构成比是事物内部某一观察单位数与事物内部各组成部分观察单位的总数之比,说明事物内部各部分所占的比重。
常以百分数表示。
相对比(relativeratio):
相对比是两个有关的指标之比,用以描述两者的对比水平。
两个指标可以是绝对数、相对数或平均数;可以性质相同,也可以性质不同。
应用相对数注意的事项
计算相对数分母不宜过小
不能以构成比代替率
计算合计率时,不能简单地相加求平均
率的比较时应注意可比性
动态数列(dynamicseries):
是一系列按时间顺序排列起来的统计指标,用以说明事物在时间上的变化和发展趋势。
抽样误差(samplingerror):
抽样误差:
由于个体变异的存在,在抽样研究中产生的样本统计量和总体参数之间的差异
检验水准(sizeofatest):
又称(水准,是预先规定的概率值,它确定了小概率事件的标准。
实际工作中常取(=0.05
I型错误(typeIerror):
H0实际上是成立的,但由于抽样的原因,拒绝了H0,这类“弃真”的错误称为I型错误,其最大概率为(
II型错误(typeIIerror):
H0实际上不成立,但假设检验没有拒绝它,这类“存伪”的错误称为II型错误,其概率大小用(表示
I型错误和II型错误
实际情况
假设检验
拒绝H0
不拒绝H0
H0成立
I型错误(()
推断正确(1-()
H0不成立
推断正确(1-()
II型错误(()
不可能同时犯I型错误和II型错误
当P≤(,拒绝H0,接受H1时,只可能犯I型错误
当P>(,不拒绝H0时,只可能犯II型错误
检验是一种以t分布为基础,以t值为检验统计量的计量资料的检验方法。
t检验的适用条件
n较小(n<60);
样本来自正态总体;
两样本所来自的总体方差齐,即
ANOVA:
变异数分析,最早由英国著名统计学家R.A.Fisher提出,又称F检验,是推断两个或多个总体均数是否相同的统计分析方法。
ANOVA应用条件
各观察值相互独立(独立性)
各个样本的总体方差齐(方差齐性)
完全随机设计(completelyrandomdesign)
又称成组设计,按随机化原则将受试对象随机分配到某一研究因素的多个水平中去,然后观察实验效应。
其目的都是推断不同水平下各组均数之间的差别是否有统计学意义。
随机区组设计(randomizedblockdesign):
又称配伍组设计,是配对设计的扩展。
是将全部受试对象按某种或某些特征分为若干个区组,使每个区组内研究对象的特征尽可能接近,每个区组内的观察对象与研究因素的水平数相等,然后分别使每个区组内的观察对象随机地接受研究因素某一水平的处理。
SNK(Student-Newman-Keuls)检验,也称q检验,适用于探索性研究,对任意两个样本均数都进行检验。
检验统计量q
LSD-t检验:
最小显著性差异(leastsignificantdifference)t检验,用于某一对或某几对在专业上有特殊意义的均数间的比较,如多个处理组与对照组的比较,一般在设计阶段确定哪些均数需进行多重比较。
统计量t值。
χ2检验:
1.应用:
(1)分类变量资料;
(2)推断两个或两个以上的样本率或构成比之间有无差异;
(3)检验频数分布的拟合优度。
R×C表资料的(2检验适用条件
1.理论数不能小于1
2.理论数1 若条件不适合,需作如下处理: A增大样本例数 B删除理论数太小的行或列 C合并(性质相同) t检验的应用条件: ①样本取自正态总体 ②σ未知且n较小 ③两样本均数比较时,两样本的总体方差相等 方差分析的应用条件 ①各次观察独立 ②每一水平下的观察值Xij分别服从总体均数为的正态分布 ③各总体的方差相等,即具有方差齐性 参数检验: 在样本所来自的总体分布型已知(如正态分布)的基础上,对总体参数进行估计或检验 非参数检验: 不依赖总体的分布类型,不对总体参数进行推断,只是通过样本观察值比较总体的分布或分布位置,又称为distribution-freetest 参数检验与非参数检验比较 分类 优点 缺点 参数检验(parametrictest) 充分利用资料提供的信息,检验效能较高 对总体分布类型有比较严格的要求,适用范围受到限制 非参数检验 (nonparametrictest) 分布类型不作要求,适用范围广;可用于任何类型资料 没有充分利用资料提供的信息,检验效能较低 秩(rank)与秩和(ranksum) 秩: 将观察值由小到大排序,该序号在统计学上称为秩或秩次 秩和: 对序号所求的和就称为秩和 适宜作秩和检验的资料 1.不满足参数检验条件(如正态分布、方差齐同)的资料及无法经变量变换满足参数检验条件的资料 2.未加精确测量的资料,如一端或两端为不确定数值(如<0.2、>3.0等)的资料、等级资料 3.分布类型未知的资料 样本含量(samplesize): 又称样本容量、样本例数,是指在抽样研究中,每个样本所包含的观察单位的数量。 样本含量估计应具备的条件: I型错误的概率 Ⅱ型错误的概率 容许误差或差值 总体参数 t检验的适用条件 未知; n较小(n<60); 样本来自正态总体;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学