统计笔记统计学复习.docx
- 文档编号:9509072
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:27
- 大小:64.72KB
统计笔记统计学复习.docx
《统计笔记统计学复习.docx》由会员分享,可在线阅读,更多相关《统计笔记统计学复习.docx(27页珍藏版)》请在冰点文库上搜索。
统计笔记统计学复习
第一章
第1节中医药统计学的意义和内容
1中医药统计学:
是将数理统计学的原理和方法应用于生物医药特别是中医药科研,收集、整理和分析资料,推断不确定现象(随机现象)客观数量规律的一门应用学科。
2中医药统计学的主要内容:
(1)统计学基本原理
(2)统计分析方法(统计设计、统计描述和统计推断、因素间的关系、生存分析、多元分析)
第2节统计学发展及有关问题
1、20世纪20年代,英国统计学家R.A.Fisher爵士(1890-1962)创立了实验设计方法和统计分析技术,奠定现代生物统计的基础。
1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告,第一次采用生物统计方法进行临床干预试验。
生物统计学方法在我国医学界的传播与运用始于20世纪初。
1948年,郭祖超教授(1912~1999)编著的《医学与生物统计方法》,是我国第一部医学统计方法的教科书。
2、评价链霉素治疗肺结核疗效试验
目标总体:
15~30岁肺双侧进行性肺结核患者
样本人群:
目标总体中的107例患者
试验方法:
将107例患者随机(尽可能保证两组患者的病情相同,见下表1)分为两组,分到试验组的55例患者用链霉素治疗,分到对照组的52例患者用常规疗法(主要是卧床休息)
试验结果:
6个月后,试验组的生存率为93%,对照组的生存率为77%。
两组的生存率有较大差别,并且P<0.05。
应用统计学理论,可以得出链霉素对所有15~30岁肺双侧进行性肺结核患者都有效果的结论
表1随机化分组后两组患者的病情比较表2两组疗效比较
分组疗效合计生存率(%)分组身体状况血沉降/(mm.h-1)
生存死亡好一般差0~11~21~>50
试验组5145593试验组81730031636
对照组40125277对照组82024122029
3、医学论文中的统计:
医学论文的两个作用:
(1)通过撰写和发表论文,报告自己观察或试验的研究结果。
撰写论文,要求我们对自己研究结果的数据资料能够正确地表达和分析。
(2)阅读别人的论文,吸取新知识,了解学术进展。
阅读论文,要求我们能够理解和评价别人研究成果的可信程度。
4、医学论文中的统计学问题:
60年代到80年代,国外医学杂志调查结果:
有统计错误的论文20%~72%。
国内1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。
1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。
5、伪造统计数据违反科学道德:
1976年NewScience(新科学)杂志关于科研舞弊行为的调查:
(1)74%的调查表反映有不正当修改数据的情况
(2)17%拼凑实验结果;
(3)7%凭空捏造数据;(4)2%故意曲解结果。
第3节统计学基本概念:
1、同质与变异:
同质:
性质相同
个体的同质性是构成研究总体的必备条件;
研究内容不同,对同质的要求不同。
变异:
指同质的个体之间的差异
(1)一种或多种不可控因素作用下所产生的反应的综合表现。
(2)结果是随即的(无法正确的预测)。
(3)个体变异是普遍存在的。
(4)个体变异是有规律的
(5)没有个体变异就没有统计学。
同质与变异的例子:
例1调查20XX年沈阳市7岁男童的身高和体重例2研究某降压药的疗效
同质:
20XX年(年份)、沈阳市(地区)、7岁同质:
高血压患者、病情相近、用
(年龄)男(性别)童某药治疗
变异:
身高和体重各不相同变异:
疗效各不相同
2、总体与样本:
总体:
根据研究目的确定的同质研究对象(个体)的全体(集合)。
分有限总体与无限总体。
样本:
从总体中随机抽取的部分观察单位。
随机抽样:
为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。
3、参数与统计量:
(1)参数:
总体的统计指标,如总体均数μ、标准差σ,采用希腊字母分别记为μ、σ。
固定的常数。
(2)统计量:
样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。
参数附近波动的随机变量。
4、抽样误差:
抽样误差:
由随机抽样造成的样本统计量和总体参数间的差异。
原因:
个体变异+抽样
表现:
(1)样本统计量与总体参数间的差别
(2)不同样本统计量间的差别
(3)抽样误差是有规律的
5、随机变量:
随机变量(变量):
对某项变异进行观察或测量得到的指标(个体观察指标)
变量值(观察值):
变量的观察结果
特征:
不确定性、规律性
6、变量的表示:
变量(variable),统计上习惯用大写拉丁字母表示,如X、Y、Z、…。
变量值习惯用小写拉丁字母表示,如性别x1=1(男)、x2=1(男)、x3=0(女)、…。
7、医药统计中的变量类型
(1)按取值结果分类:
离散型——取值为有限个连续型:
取值可充满某个区间
(2)按观察指标的性质分类:
定量变量:
计量变量
分类变量:
二分类变量、多分类变量(无序分类变量(名义变量)、有序分变量(等级变量)
8、医药统计中的资料类型
定量资料:
计量资料
分类资料:
二分类资料:
计数资料
多分类资料:
无序分类资料:
计数资料
有序分类资料:
等级资料
9、概率与频率
确定性现象:
在一定条件下,一定会发生或一定不会发生的现象。
其表现结果为两种事件:
肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。
随机现象:
在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。
其表现结果称为随机事件。
随机事件的特征:
①随机性;②规律性:
每次发生的可能性的大小是确定的。
10、频率与概率
概率probability:
描述随机事件发生的可能性大小的数值,用大写的P表示;取值[0,1]。
频率frequency:
样本的实际发生率。
设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为m/n。
(0≤m/n≤1)
11、小概率事件
必然事件P=1P≤0.05(5%)或P≤0.01(1%)称为小概
不可能事件P=0率事件(习惯),统计学上认为小概率事
随机事件0
12、频率与概率间的关系:
(1)频率是统计量,反映样本特
(2)随着样本含量n增大,频率将稳定在一个常数------概率
(3)概率是频率的稳定值。
是总体参数,刻画总体特征
(4)n足够大时,频率近似概率
掷币实验:
当实验次数很大时,出现正面的频率逐渐趋于稳定(稳定于0.5)
13、统计描述与统计推断
统计描述:
通过统计指标、统计图、统计表等方法来描述资料的特征(分布的形状、集中趋势、离散趋势)
统计推断:
包括参数估计与假设检验
14、常用的统计表:
由标题、标目、线条、数据等四部分组成。
分为:
简单统计表(分组变量1个)、组合统计表(分组变量多于1个)。
常用的统计表:
频数表、列联表等。
15、常用的统计图:
直条图、直方图、百分条图、圆形图、普通线图、箱图、散点图、回归线图、生存线图等。
16、常用的统计指标:
计量资料:
均数、中位数、标准差等
计数资料:
率、构成比、相对比等
变量间关系:
相关系数、回归系数等
第4节变量及资料类型
1、计量资料:
对观察对象测量指标的数值大小所得的资料,即为计量资料,也叫定量资料。
特点:
有计量单位,如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、
红细胞计数(1012/L)
2、计数资料:
按某种属性分类,然后清点每类的数据,称计数资料,也叫定性资料。
特点:
无固有计量单位,如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)
3、等级资料:
半定性或半定量的观察结果。
有大小顺序,所以也叫有序分类资料。
1)癌症分期:
早中晚。
2)药物疗效:
治愈好转无效死亡3)尿蛋白:
++,+++及以上
4、三类资料间关系
例:
一组2040岁成年人的血压(计量资料)
<8低血压8正常血压12轻度高血压15中度高血压17重度高血压(等级资料)
以12kPa为界分为正常与异常两组,统计每组例数(计数资料)
第5节统计工作的基本步骤
1、统计设计:
(1)包括调查、实验设计。
运用医学统计学的起点,也是高质量地完成整个研究的重要础。
(2)收集资料:
在研究设计基础上,通过试验或调查,取得准确可靠的原始资料
(3)整理资料:
对资料进行清理、改错,数量化
(4)分析资料:
包括统计描述、统计推断。
将所得数据进行统计学处理的过程
(5)作出结论:
在数据分析的基础上,应用统计学处理的结果,进行统计学推断。
同时,依据相应的专业知识,作出专业性的结论。
2、SPSS软件的特点
(1)操作简便,方便自学。
数据转换功能较强:
可存取和转换多种数据类型
(2)数据管理功能强大且操作直观:
在基本界面上集数据录入、转换、检索、统计分析、作图、制表及编辑等功能于一身;
(3)可用SPSS命令编程,形成SPSS环境下的可执行文件。
(4)统计分析方法比较全面:
包括一般统计描述、简单列联表分析、均数比较、一般线性模型、混合模型、相关回归、对数线性模型、聚类和判别、因子分析、非参数检验、时间序列、生存分析及缺失值估计等内容;
(5)SPSS结果输出的管理也很有特色;
(6)绘图和图形编辑功能也很方便、全面。
3、变量加权:
作用:
加权后的变量被说明成频数,常用于频数表资料。
第二章
医药研究的类型:
1、实验研究(干预,第2章):
将同一总体的研究对象根据研究目的与内容随机分组,对各处理组的研究对象施加不同的干预,比较结果差异。
2、调查研究(观察性研究,无干预,第14章):
不对研究对象施加任何人为干预,是在自然条件下观察、记录研究对象的特征,可根据研究目的与内容进行随机抽样,但不能随机分组。
3、医药研究的类型:
实验研究:
研究对象:
人——临床试验动物——动物实验
临床试验:
治疗——临床疗效实验预防——社区干预实验联系:
调查研究可为实验研究提供线索,而实验研究还需通过调查研究加以证实。
第1节实验研究的三要素
三要素:
1)处理因素;2)受试对象;3)实验效应
1、处理因素:
因素:
实验研究中,对实验指标产生影响的各种原因。
(1)处理因素:
研究者根据研究目的欲施加或欲观察的,能作用于受试对象并引起直接或间接效应的因素,又称试验因素或研究因素。
实验研究的目的:
阐明处理因素的作用
处理因素的数目与水平:
单因素实验:
t检验、单因素方差分析。
多因素实验:
析因设计、正交设计方差分析
除了处理因素对实验结果产生影响外,还有一些“非研究因素”也会对研究结果产生影响。
(2)混杂因素:
与处理因素同时存在,能使受试对象产生效应的其他非研究因素称非处理因素或混杂因素。
研究者在确定处理因素的同时,根据专业知识与实验条件,尽可能找出对研究结果产生影响的非处理因素,并加以控制是十分重要的。
(3)处理因素与混杂因素
1)区分处理因素与混杂因素:
混杂因素在各处理组中条件基本相同,以凸显处理因素作用。
2)常见的混杂因素:
年龄、性别、病情、病程、病史、家族史
3)对混杂因素的处理:
采用良好的设计:
排除、平衡
4)处理因素必须标准化:
处理因素在整个实验过程中始终如一,保持不变。
2、受试对象
受试对象:
处理因素作用的客体
基本条件:
(1)敏感性:
对处理因素敏感
(2)特异性:
不易受非处理因素干扰
(3)稳定性:
反应稳定。
动物的选择:
种类、品系、年龄、体重、窝别、营养……
病例的选择:
纳入标准、剔除标准
3、实验效应:
处理因素作用于受试对象后所表现出来的效果,通过观察指标表达,有定量指标和定性指标。
观察指标应客观、精确、灵敏、特异。
第2节实验设计的基本原则
1、实验设计三原则
对照:
去除随机变异和其他非研究因素的影响,凸显研究药物的效果
随机:
保证受试者情况在各组间的均衡性
重复:
充足的样本量,保证能检出的确存在的差异
2、对照原则
对照的意义:
运用比较的手段将处理因素的效应充分显露出来
(1)区分处理因素与非处理因素的效应,是比较的必要基础
(2)消除和减少实验误差
常用对照方法:
空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照、历史对照等
1)空白对照:
对照组不加任何处理因素。
例:
特点:
简单易行,但容易引起心理差异,从而影响实验效应的测定。
2)安慰剂对照:
安慰剂:
指对受试对象无任何副作用和药理作用的“假药”,它不含试验药物的有效成分,而其感官如颜色、大小、剂型、重量、口感、气味等与试验药物应尽可能一致,不能被受试对象所识别。
作用:
①克服由于心理因素而形成的偏倚②分离试验药物引起的不良反应
3)标准对照:
以公认的标准方法或常规方法施加处理,或者以现有的标准或正常值作对照。
4)实验对照:
对照组施加某种与处理因素有关的实验因素(非处理因素)
5)自身对照:
对照与实验在同一受试对象上进行。
特点:
简单易行,使用广泛。
但若试验前后某些环境或自身因素发生改变,并且会影响试验结果,就难以说明问题。
6)相互对照:
不设对照组,几个实验组互相对照。
例:
比较几种药物治疗同一疾病的疗效
7)历史对照:
以过去的研究结果作对照。
3、随机化原则:
随机≠“随便”,指每个受试对象以机会均等的原则随机地分配到试验组和对照组。
目的是使各组非实验因素的条件均衡一致,以消除对实验结果的影响。
(1)随机化分组:
.
抽签:
随机数字表:
1)将n个受试对象编号,动物可按体重大小,患者可按就诊顺序;
2)取随机数;
3)确定组别:
将随机数由小到大排列,按排列号分组计算器或计算机(产生伪随机数)
随数例2-3将18只同品种、同性别、体重相近的小鼠随机等分成甲、乙、丙三组。
(1)按小鼠体重编号
(2)从附表16的第33行,第1个数起由左向右查18个随机数(3)将随机数由小到大排列,按排列号:
1-6号分到甲组,7-12号分到乙组,13-18号分到丙组
4、重复的原则
概念:
重复是指各处理组与对照组要有一定样本含量。
无限地增加样本含量,将加大实验规模,延长实验时间,浪费人力物力,反而增加系统误差出现的可能性。
样本含量不足,检验效能(Power,1-β)偏低,导致总体中本来具有的差异无法检验出来。
第3节常见实验设计方法
1、单因素设计:
单组设计、配对设计、完全随机设计(单因素多水平设计)等
2、多因素设计(不便考察交互作用):
随机区组设计、拉丁方设计、交叉设计、嵌套设计(组内分组设计)等
3、多因素设计(可以考察交互作用):
析因设计、正交设计等
4、重复测量设计
第三章
第1节频数表与频数分布
1、频数表的编制步骤:
(1)求极差(range):
即最大值与最小值之差,又称为全距。
(2)决定组数、组段和组距:
根据研究目的和样本含量n确定。
组距=极差/组数,通常分8-15个组
(3)列出组段:
第一组段的下限略小于最小值,最后一个组段必须包含最大值,其它组段上限值忽略。
(4)划记计数:
用划记法将所有数据归纳到各组段,得到各组段的频数。
2、频数分布的特征
(1)集中趋势:
反映数据的平均水平或分布的集中位置。
本例在组段“482~512”频数最多,集中形成高峰。
——平均水平指标
离散趋势:
反映个体间的差异。
两侧频数逐渐减小,离散形成尾势。
变异水平指标
3、对称分布与偏态分布
(1)对称分布(图3-1):
中间高,两边低,左右对称
(2)左偏态、正偏态(图3-2):
高峰偏向左侧,长尾向右延伸
(3)右偏态。
负偏态(图3-3):
高峰偏向右侧。
长尾向左延伸
第二节描述集中趋势的指标
总称为平均数反映了资料的集中趋势。
常用的有:
1、算术均数,均数:
Σ为求和符号。
适用条件:
资料呈正态或近似正态。
2、几何均数变量对数值的算术均数的反对数。
适用条件:
呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料,同一资料,几何均数<均数
3、中位数是将一批数据从小至大排列后位次居中的数据值,符号为M,反映一批观察值在位次上的平均水平。
适用条件:
适合各种类型的资料。
尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
中位数计算公式:
先将观察值按从小到大顺序排列,按以下公式:
4、众数:
出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。
适用于大样本;较粗糙。
均数、中位数、众数三者关系:
正态分布时:
均数=中位数=众数
正偏态分布时:
均数>中位数>众数
负偏态分布时:
均数<中位数<众数
第三节描述离散趋势的指标
描述离散趋势的指标:
反映数据的离散度:
,即个体观察值的变异程度。
常用的指标有:
(1)极差R:
优点:
简便。
缺点:
1)只利用了两个极端值2)n大,R也会大3)不稳定
(2)四分位数间距:
四分位间距:
QR=P75-P25
(3)百分位数:
数据从小到大排列;在百分尺度下,所占百分比对应的值。
记为Px。
应用:
确定医学参考值范围;如95%参考值范围P2.5~P97.5;表示有95%正常个体的测量值在此范围;中位数M与四分位数间距QR一起使用,描述偏态分布资料的特征
(4)方差也称均方差,样本观察值的离均差平方和的均值。
表示一组数据的平均离散情况。
(5)标准差:
标准差即方差的正平方根;其单位与原变量X的单位相同。
(6)变异系数CV,适用条件①观察指标单位不同如身高体重②同单位资料,但均数相差悬殊
(7)小结:
极差较粗,适合于任何分布;标准差与均数的单位相同,最常用,适合于近似正态分布;变异系数主要用于单位不同或均数相差悬殊资料;平均指标和变异指标分别反映资料的不同特征,常配套使用。
如正态分布:
均数、标准差;偏态分布:
中位数、四分位数间距。
第四节描述分布形态的指标
1、偏度系数:
描述分布的对称性。
2、理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏态;取负值时,分布为正偏态。
3、峰度系数:
反映分布是否有正态峰。
理论上正态分布的总体峰度系数为0。
第五节正态分布
正态分布,也叫高斯分布是最常见、最重要的一种连续型分布。
μ为总体均数,σ为总体标准差,f(X){表示正态曲线下X左侧面积}称为概率密度函数
变量X服从正态分布记作X~N(μ,σ2)。
以X为横轴,f(X)为纵轴绘制的曲线就是正态曲线。
1、正态分布的特征:
(1)高峰在均数处,均数两侧完全对称
(2)正态分布有两个参数:
位置参数(均数)和变异度参数(标准差)(3)正态曲线下的面积有一定的分布规律。
2、标准正态分布μ=0,σ=1记为N(0,1)一般正态分布为一个分布族:
N(μ,σ2);标准正态分布只有一个N(0,1)
3、曲线下面积的分布规律:
标准正态曲线下双侧尾部面积为α时对应的z值——双侧z界值;标准正态曲线下双侧尾部面积为α时对应的z值——双侧z界值。
4、正态分布法:
双侧100(1-α)%正常值范围:
单侧100(1-α)%正常值范围:
双侧95%正常值范围:
单侧95%正常值范围:
5、百分位数法:
双侧95%正常值范围P2.5~P97.5。
单侧95%正常值范围
偏态分布
第四章
第1节总体均数的估计
1、抽样误差:
由随机抽样造成的样本统计量和总体参数间的差异。
原因:
个体变异+抽样
表现:
样本统计量与总体参数间的差别;不同样本统计量间的差别;抽样误差是有规律的
2、中心极限定理case1从正态总体N(μ,σ2)中随机抽样(每个样本的含量为n),可得无数个样本,每个样本计算样本均数,则样本均数也服从正态分布,样本均数的均数为μ;样本均数的标准差
中心极限定理case2从非正态分布总体(均数为μ,方差为σ2)中随机抽样,可得无数个样本,每个样本计算样本均数,样本含量小时,样本均数不服从正态分布。
但样本含量足够大(如n>50)时,样本均数也近似服从正态分布。
样本均数的均数仍等于μ样本均数的标准差仍为:
3、标准误;
样本统计量的标准差称为标准误;样本均数的标准差称为均数的标准误;均数的标准误:
衡量均数抽样误差大小的统计指标;当总体标准差未知时,用样本标准差代替;增大样本含量可以减小抽样误差
4、t分布
在实际工作中,总体方差未知,所以用样本方差代替总体方差。
样本方差代替总体方差,此时不服从正态分布,而服从t分布
t分布的特征:
(1)单峰分布,曲线在t=0处最高,并以t=0为中心左右对称
(2)t分布是一簇分布,与自由度有关
(3)与标准正态分布相比,高峰位置较矮,两尾部翘得高,即相同尾部面积对应的界值比z界值大。
例如:
z0.05=1.645,t0.05,3=3.182
(4)随自由度增大,曲线逐渐接近标准正态分布;t分布的极限为标准正态分布。
5、总体均数的估计
(1)总体均数的点估计与区间估计
参数的估计:
点估计:
由样本统计量直接估计、总体参数
区间估计:
以一定概率1-α(可信度)估计出总体参数可能存在的范围。
考虑抽样误差
(2)可信区间的意义:
95%可信区间的意义:
该区间以95%的概率包含了待估计的总体参数。
从总体中作随机抽样,每个样本可算得一个可信区间,若作100次抽样,可得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。
(3)可信度:
区间的可信度(如95%或99%):
是重复抽样(如1000次)时,样本(如n=5)区间包含总体参数(μ)的百分数。
常用100(1-α)%或(1-α)表示,α(称为显著水平)值一般取0.05或0.01。
(4)可信区间的两要素:
准确度(可靠性):
由(1-α)的大小决定。
精确度:
由区间长度决定95%可信区间精确度高,准确度低;95%可信区间反之。
(5)影响可信区间大小的因素:
可信度越大,区间越宽;个体变异越大,区间越宽;样本含量越大,区间越窄
第二节假设检验
假设检验(也称显著性检验):
是先对总体的参数或分布提出某种假设,如假设两总体均数相等、总体服从正态分布或两总体分布相同等,然后用适当的统计方法计算检验统计量,根据检验统计量大小推断假设是否成立。
1、假设检验的分类:
参数检验:
非参数检验:
2、假设检验的依据:
小概率事件:
P≤0.05(或P≤0.01)的事件称为小概率事件。
小概率(事件)原理:
统计学上认为小概率事件在一次试验中是不可能发生的。
若小概率事件在一次试验中发生了,即认为不合理或出现矛盾,可推断原假设不成立。
3、假设检验的一般步骤:
(1)建立检验假设(包括原假设H0和备择假设H1),确定检验水准a
(2)确定检验统计量及其分布,并根据样本值计算检验统计量的值;
(3)确定概率P,做出推断结论:
P≤α,拒绝原假设H0,接受备择假设H1;否则,就不拒绝原假设H0。
4、假设检验的两类错误
第一类错误(Ⅰ型错误):
当假设检验得到P≤α时,做出“拒绝H0,可认为各总体间有差别”的结论时,这有可能将事实上没有差别的结果错误地判断为有差别,即这时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 笔记 统计学 复习
![提示](https://static.bingdoc.com/images/bang_tan.gif)