统计学概念大题.docx
- 文档编号:947241
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:16
- 大小:35.49KB
统计学概念大题.docx
《统计学概念大题.docx》由会员分享,可在线阅读,更多相关《统计学概念大题.docx(16页珍藏版)》请在冰点文库上搜索。
统计学概念大题
一、绪论
医学统计学得基本内容包括统计设计、数据整理、统计描述与统计推斷在研究设计上得错误在数据分析阶段无法更正结果得表达方式主要就是统计指标、统计表与统计图
统计推断实质有样本数据得特征推断总体特征得方法,包括参数估计与假设检验。
参数估计包括点估计与区间估计。
区间估计得重要性在于可以得出估计不准得槪率。
假设检验得作用就是能够辨别出由随机波动引起差别得槪率得大小同质homogeneity:
根据研究目得确定得观察单位,其性质应大致相同Variation:
观察同一指标,各观察单位之间由于个体差异,会使测量结果不同,这种差异称为变异,它就是同质基础上得个体差异
Variable:
反映观察对象生理生化等特征得指标,变量得观察值称为数据(data)医学统计学得研究对象就是具有不确定性结果得事物
定量数据(计量资料):
用定量得数值大小衡量水平高低,一般有计量单位。
分为连续型(身高、体重)与离散型(脉搏、呼吸)
定性数据(计数资料):
数据就是定性得,表现为互不相容得类别或属性。
如生死、男女
有序数据(等级资料):
数据就是定性得,但各类别或属性之间存在排序。
如痊愈/好转/有效/无效
population:
根据研究目得确定得所有同质观察对象得全体sample:
从总体中抽取部分有代表性得观察单位,对变量进行观测得到得数据error:
观测值与真实值、样本统计量与总体参数间得差别parameter:
描述总体特征得指标
statisties:
描述样本特征得指标
error:
抽样误差samplingerror:
由于个体变异导致得,由于抽样引超样本统计量与总体参数之间得差异
二、定量数据得统计描述
頻数分布表得用途:
代替原始资料,便于进一步分析;观察数据得分布类型;便于发现资料中远离群体得特大或特小值;当样本含量较大时,可用各组段得频率作为概率得估计值
正态分布得数据:
算数平均数(arithmeticmean)
变量取值跨越多个数量级得数据:
几何均数(geometric,G)
同一组观察值得几何均数总就是小于算术平均数
偏态数据:
适用中位数与百分位数
以上为集中趋势得统计指标
变异程度得统计指标包括:
方差与极差
极差(range,R):
观测值中最大值与最小值之差
四分位间距(quartilerange,Q):
把所有数据排序后,分成四个数目相等得段落,去掉两端得25%,中间得50%观察值得数据范围即为Q。
方差(variance):
反映个体变异
标准差(standarddeviation,S):
方差得平方根
CV:
主要用于不同量纲得变量间,或均数差别较大得变量间变异程度得比较。
CV越大变异度越大,变异系数(coefficientofvariation,)CV=(S/X)X100%对于正偏态分布得数据,其均数大于中位数
三、正态分布与医学参考值范围
正态分布得特征:
以上U为中心得单峰分布,左右完全对称;以X轴为渐近线,两端与X轴不相交概率密度函数在左U叶有最大值,在±O时有拐点
H决定曲线得位置,a决定曲线得形状
曲线下总面积为1(100%),任意某一区间下得面积与统一区间上得概率相等
Z
Z变换(随机变量得标准化转换)0
医学参考值范围:
“正常,,人得解剖、生理、生化指标等数据大多数个体值得波动范围,其统计学含爻:
从选择得参照总体中获得得所有个体观察值,用统计学方法建立百分位数界限,由此得到个体观察值得波动区间
制定医学参考值范围得注意事项:
确定同质得参照总体(正常人就是指排除了对研究指标有影响得疾病或有关因素得同质人群)、选择足够例数得参照样本、控制检测误差、选择单双侧界值、选择适当得百分数范围
百分位数法:
当分析指标例数较大时分布趋于稳定,不满足正态分布时使用。
要求有较大得样本含量,其适用范围广
四、定型数据得统计描述
relativenumber;两个有关得绝对数之比,相对数得性质取决于其分子分母得意rate:
表示一定时间或空间范围内某现象得发生数与可能发生得总数之比,说明某现象得强度或频率。
表示槪率大小或可能性
proportion:
表示某事物內部各组分在整体中所占比重,常以百分数表示,表示客观存在。
两者区别在于:
某一部分得构成比得增减会影响其她部分,而率不相互影响。
平均率不能由各率相加后平均求得。
病死率反应疾病得致死严重程度
标准化率:
使内部构成不同得数据间具有可比性而引用得相对数
相对危险度:
表示在两种不同条件下某疾病发生得概率之比
比数比:
病例组与非病例组中得暴專比例与非暴露比例得比值之比。
mortalityrate:
菜年某地每千人口中得死亡人数,反映当地居民总得死亡水平,死亡率=某年某地死亡人口总数xKxx)扳
也称粗死亡率同年该地年平均人n数年龄别死亡率age-specificdeathrate:
死因别死亡率:
反映各类疾病对人群健康得威胁程度
某病死亡率=X100QQQ/lOTi
同年该地平均人口数
死因构成:
构成比,反映全部死亡人数中死于某死因者占总死亡人数得百分比Incidencerate:
表示一定期间内,一定人群中某病新发生得病例出现得频率,适用于病程短得疾病或传染病,分母为可能发病得人数
Prevalencerate:
表示某一时点某人群中还某病得频率,常用于病程长得疾病。
Casefatalityrate:
表示某一段期间内,某病患者中因该病死亡得频率,表示该疾病得严重程度与医疗水平,多用于急性病
Curerate:
表示接受治疗得病人中治愈得频率、
样本含量小于20,不宜计算相对数
五、统计表与统计图
直方图(histogram):
用直条矩形面积代表各组频数,各矩形面积总与代表各组频数得总与。
它主要用于表示连续变量频数分布情况。
直条图barchart:
用相同宽度得直条长短表示相互独立得某统计指标值得大小。
直条图按直条就是横放还就是竖放分卧式与立式两种,按对象得分组就是单展次与两层次分单式与复式
使用直方图需注意:
♦纵轴得刻度必须从“0”开始,而横轴得刻度按实际范围制定。
各矩形得高度为频数或频率,宽度为组距。
如果各组段得组距不同要调整各矩形得高:
矩形高度==组段频数/组距。
绘制直条图时应注意:
•一般以横轴为基线,表示各个标志,纵轴表示各标志相应得值;
•纵轴尺度必须从“0”开始,而且要等距;
•直条得宽度要相等,直条之间得间隔要等距,通常与i条得宽度相等或略小。
线图:
用线段得升降来表示腊标得连续变化趋勢,适用于描述一个变量随另一个变量变化得越势。
横轴与纵轴得刻度都可以不从“0”开始;不应将折线描成光滑曲线:
箱图:
用于比较两组或多组资料待集中趋势与离散趋势,主要■适用于偏态分布得资科。
箱子得长度表示四分位数间距,两端分别就是P?
占P25,箱图最外面两端连线表示最大值与最小值,或P5与P95,异常值另作标记;箱子越长表示数据离散程度越大;箱图得中间横线表示中位数,中间横线若在箱子中心位置,表示数据分布对称,中间横线偏离箱子正中心越远,表示数据分布越偏离中位数。
误差条图:
用于比较多组资料得均数与可信区间;高度表示均值大小,上下端得“工字线”分别代表可信区间得上下限;上下限也可以使用标准误;纵轴从“0”开始;
各直条宽度相等
scatterchart:
用点得密集程度与变化趋势来表示两指标之间得相关关系,横轴代表自变量、纵轴代表因变量,两者都可以不从零开始。
piechart就是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占得比例
百分比条图(percentagechart)也就是一种构成图,用矩形条子得长度表示100%,而用其中分割得各段表示各构成部分得百分比
六、参数估计与假设检验
标准差:
度量样本观察值与样本均数得离散程度,反映个体间差异得大小。
标准误:
度量样本均数(统计量)与总体均数(参数)得离散程度,反映样本间差异得大小。
类似标准正态分布,曲线以0为中心,两边对称。
曲线得变化与自由度V有关。
自由度卩越小,七值越分散,峰越矮,尾越高;k增大,七分布遇近标准正态分布,k趋于8时,£分布趋向标准正态分布。
■t分布得特点:
相同自由度时,I亡|值越大,尾部槪率越小;相同"直时,双侧尾部槪率为单侧尾部槪率得两倍
准确度(accuracy):
反映可信度(1-a)得大小,即可信区间包容“得槪率大小,愈接近1愈好。
精确度(precision):
反映在区间得长度,区间长度愈小精确度愈高。
a就是检验水准,对于可信区间就是指它包含总体均数得可能性为95%,而不包含总体均数得可能性仅为5%c
总体均数可信区间与参考值范W的区别
区别点
参考值范
总休均数可信区间
含义
“正常人”的解frt.住理.生化某项加标的波动范
个休值的波动范曲
以95%的可信区间为例•盘味若在同一总休中作100次址复抽样.可年2100个吋信区间,半均冇95个叮信区间包含总体均数-只冇5个町信IX间不包含总体均数・
总体均数的可能范W
H■算公式
正态分布:
偏态分如:
Px~PJ軸7
n>50;
•Y土"a.pb'Y或Y土—aSf
n<50:
X土Q'2,居
用途
绝大笔数(如95悯)观察対線果:
项指标的分布
总休均数的区间估il
假设检验得原理:
小概率反证法
对所估计得总体首先提出一个假设,然岳通过样本数据去推断就是否拒绝这一假设得过程,如果目前不(大)可能发生得情况竟然发生了,说明前提不对。
假设检验得基本步骤
1、建立假设与确定检验水准(a取值较小时,有利于提高检验结果得可靠性《)
2、选择检验方法与统计推斷分析:
根据资料类型,选择适当得检验方法,并计算相应得检验统计量
3、确定P值与作出统计推斷(PWa,按a检测水准,拒绝HO,接受HI°P>a,现有样本信息不足以拒绝HO)
最后得统计推斷需结合统计结论与专业结论进行推断.
假设检验得思想:
对所需要比较得总体提出一个无差别得假设,然后通过样本数据去推斯就是否拒绝这一假设,实质:
判斷观察到得“差别”就是抽样误差引起还就是总体上得不同。
目得:
评价两个不同得歩数或两种不同处理弓I起效应不同得证据具有得强度,这种证据得强
度用概準P度童与表示。
leveloftest:
a取值校小时,有利于提高检验结果得可靠性,但就是精密度下降。
a取值加大时,有利于发现研究总体可能存在得差异,但就是其可靠性降低。
6•参数估计和假设检验的联系
♦参数估计是用样本统计量估计总体参数的方法,总体参数在估计前是未知的,
♦假设检验则是先对总体参数的值提!
li一个假设,然后利用样本信息去检验这个假设是否成立。
如果成立,我们就接受这个假设,如果不成立,就放齐它。
♦假设检验的实质足如何利用样本信息,对假设成立与否作出判断的一套程序。
七、t检验
单个样本t检验得目得:
推断一个小样本均数所代表得未知总体均数n与已知总体均数Ug就是否有差别。
单样本t忌验得适用条件:
♦已知一个总体均数;
♦可得到一个样本均数及其标准误;
♦样本来自正态或近似正态总体®
单样本t检验得适用条件:
♦配对t检验得适用条件
♦配对资料差值得总体需要服从正态分布。
同源配对:
同一受试对象或同一标本得两个部分,随机分配接受两种不同处理异源配对:
两个同质受试对象配对,分别接受两种处理
方差齐性检验(F检验):
由两个样本得方差推斷总体方差就是否相同。
要求资料服从正态分布。
拒绝无效假设则方差不齐
方差不齐时进行七'检验,CC法通过对临界值进行校正,satterthwaite法就是对自由度进行校正
T检验得注意事项:
1.
2.
3.
4・
5・
要有严密得抽样设计
选用得检验方法必须符合其适用条件
单侧检验与双侧检验
正确得理解P值与差别有无统计意义
假设检验与可信区间得关系假设检验与可信区间得关系:
1、置信区间可回答假设检验得问题,并能提供更多信息,但并不意味着置信区间能够完全代替假设检验。
2、因为置信区间只能在预先规定得概率a前提下进行计算,得到差别得大小,而不能提供确切槪率。
而假设检验能够获得确切得槪率P值,较精确地说明结论不正确得槪率
一矣错误:
弃真,即拒绝正确得Ho,称为假阳性错误。
在秩与检验检验其她分布得时候容易犯该错误,此时应该降低a,当进行新药研究时,要避免假阳性错误,适
当降低aO
二类错误:
存伪,即接受一个不应该接受得H。
在多次使用t分布检验多组得资料时容易发生,又称假阴性错误,此时应该降低提高检验效能,当方差齐性检验时,可适当降低B
两样本均数之差得标准误反应得就是两样本均数之差得标准误
将配对设计得数据进行两独立样本得t检验,容易增加犯二类错误得概率
八、方差分析
AN0VA:
多组样本均数得比较
前提:
独立正态方差齐
方差分析得基本思想就就是根据变异得不同来源将全部观察值总得离均差平方与与自由度分解为两个或多个部分,除随机误差外,其余每个部分得变异可由某个因素得作用加以解释。
通过比校不同变异来源得均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。
完全随机设计得方差分析
表64宪全a机设计的方差分析表
蛮异来源
平方和SS
自由度V均方MSF值
总变异
1r
SSr=SS(竝・夏尸
!
■!
t
sA■t
D5^(n-I)
处理级间变异
*
■■1
s4■1M5nr■SS你/(&—1〉MS^/MS.
粗内变异(浜差)
t•(
ss.«S2(x.
fv1/■1
齐》n-iMS..SS"(n-A)
*ns?
■«1
随机区组设计得方差分析
It6-6ft机区组设计的方i分析丧
交异来潭
平方和SS
自由度》
均方HS
总的交异
SSt=22(如・〒尸
1■11
■$2(n-l)
n-1
处理组间变异
1
f-i
k・I
MSx>SSJ(*-1)
gMS*
区粗间的变异
■
SS,=
m-1
MSb=SVS-1)
MSb/MS.
瞇
SS«—SSt—SS,—SS.
MS.«SSe/(Jt-l)(m-l)
♦Bonferoni法:
对检验水准进行调整a'=a/m多组数据进行方差齐性检验:
Bartlett法两组数据方差齐性检验:
F检验对两组资料得比较,方差分析与t检验得关系就是完全等价
九、x?
检验
适用于分类计数资料得假设检验,检脸两个(多个)得总体率或构成比有无差别'■才检验统计ft的基本公式为:
•・2P(,4-7)2^3_„
Z=2-—亍—或才-n
T二心心
Al实际频数(Actualfrequency)
Ti理论频数(theoreticalfrequency)gR(row)行的合计
C(column)列的合计
加总例数卡方检验得基本思想就是检脸实际频数与理论频数得差别就是否由抽样误差引起,检验统计量卡方反映了实际频数于理论频数得吻合程度
卡方检验得校正公式(不记)
2(M胡-0.5)2
Zr_乙
「四格表资料护检验公式的选择:
确切概率法
配对四格表资料得卡方检验:
表9・5两种培养基培养结核«结果
B培养》
合计
+
-
+
48(a)
24(b)
72
•
20(0
106(d)
126
舍计
6»
130
198
其假设检验为mcnemar
行X列表的护检验的注意事项
1.理论频数TV5的格子数不宜超过1/5格子总数,
否则其结果存疑。
处理方法有三种:
增大样本含量以达到增大理论频数的目的。
根据专业知识,将理论频数太小的行或列与性质相近的邻行或邻列进行合并。
例如:
不同年龄组可以合并,但不同血型就不能合并。
改用双向无序XC表的用确切概率法。
2.多个样本率比较:
若所得统计推断为拒绝H"接受时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间均有差别。
要比较任意两组间总体率有无差别,需进一步做行X列分割的力2检验。
RXC表资料的护检验与分类变量的顺序无关,双向均为按等级分类,且属性相同的资料不宜用护检验的方法。
前面讨论的方法都是基于总体分布为正态分布或总体方差齐的前提下对参数进行的检验,称为参数检验方法(parametrictest)。
当不满足上述条件时,我们须采用非参数检验(nonparametiictest)方法,其适用范围是;
】・总体分布为偏态或未知的计量资料
2.
数据两端出现不确定值
3.等级资料
4.各组离散程度相差悬殊,总体方差不齐
非参数检验的特点
♦直接对总体分布进行检验的方法。
•假设检验的结果对分布的位冒敏感,而对分布的形状不敏感。
♦当服从参数检验条件的资料釆用非参数检验时会降低检验效能,增加犯H类错误的概率。
多个独立样本比较的秩和检验
适用条件:
1.不满参数检验的应用条件的完全随机设计的多个样本的比较。
多个独立样本比较得之与检验又称H检验或KW检验,当k二3且每组例数小于等于
5,查H界值表,当k大于3,或者k二3且最小样本例数大于5时,差卡方界值表
SS总:
即工(卩-5^,为离均差平方和。
表示未考虑与的回归关系时的总变异。
SS回:
即yc-w,为回归平方和。
由于特定样本的均数F是固定的,所以这部分变异由7的大小不同引起。
当X被引入回归以后,正是由于底的不同导致了恥4+就'不同,所以SS且反映了在y的总变异中可以用X与F的直线关系解释的那部分变异.
方离0越远,X对y的影响越大,S5•回就越大,说明回归效果越好。
上述三个平方和,其自由度关系如下;
財总=2回+色匕总二〃—1卜回=1"残二"一2
线性回归分析的注意事项
•做回归分析要有实际意义,不能把毫无关联的两种现象作回归分析。
•作回归分析时,应该以“因”的变量为X,以“果”的变量为如果变S之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X。
•在回归分析中,自变量既可以是随机变量或是给定的量,与每个X取值相对应的变量y必须服从正态分布,否则需进行数据转换。
常用的秩相关方法是spearman^相关。
其相关系数心的计算公式为:
进行线性相关分析的注意事项1.首先绘制散点图
有助于我们观察两个变量之间有无线性相关关系,当呈现
出直线趋势时,再作相关分析。
2.线性相关分析只适用于两个变量都服从正态分布的情形.
如果资料不服从正态分布,应先通过变量变换,使之正态
化,再根据变换值计算相关系数。
3.
4.
要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。
依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差.
相关关系不一定是因果关系。
决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。
5.
出现离群值或样本含量较少时,慎用相关。
线性相关和回归的区别与联系
♦区别
在资料的要求上'
口回归要求因变量Y服从正态分布,X是可以精确测定和严格控制的变*。
(I型回归)
口相关要求两变量X,y均服从双变*正态分布。
(11型回归)
在应用上,
口说明两变量间依存关系的为回归(单向)。
□说明两变量间相关关系的为相关(双向)0
♦联系
一对同一资料进行相关与回归分析,则得到的相关系数r与回
归方程中的正负号是相同的・
「为正表示:
两变量间的相互关系是同向变化的。
6为正表示,X每增(或减)一个单位,F评价增(或减)b
个单位。
一r和b的假设检验是等价的,对于同一样本r与Q可以互相转
化。
由于r的假设检验可以直接査表,较为简单,所以可以
用其代替对6的假设检验。
□相关回归可以互相解释。
R的平方称为确定系数(coefficientofdetermination)
仃_厶丁/厶丁_"冋归
IxY
此时说明了当ss总不变的情况下,回归平方和的大小决定了相关系数的大小,"反映了回归平方和在总平方和中
相关系数:
pearson积差柏关系数,就是说明两个具有直线相关关系得两个变量间相关得密切程度与相关方向得统计量
♦新药临床试验分期
□I期,目的是观察人体对于新药的耐受程度以及其药代动力学,为制定给药方案提供依据(2O・8o例〉。
□n期,目的是初步评价药物对目标适应症患者的治疗作用和安全性
(K)0・300例)。
口UI期,目的是进一步验证药物对目标适应症患者的治疗作用和安全性,评价利益与风险关系,探索未被发现和认识的状况(1000・3000例)O
□IV期,目的是考察在药物广泛使用时的疗效和不良反应,评价其在普通或者特殊人群中使用的利益与风险关系。
♦影响样本含量的条件
实验允许的第一类错误的概率依),即检验水准。
口提出所期望的检验效能(1/)。
二对实验的精度要求,即规定容许误差(5)的大小。
口观察指标的变异度,即变量的标准差(S),总体标准差(b)或(方,常用预试验的样本标准差来估计。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概念