生物统计复习资料精品.docx
- 文档编号:16430825
- 上传时间:2023-07-13
- 格式:DOCX
- 页数:24
- 大小:667.06KB
生物统计复习资料精品.docx
《生物统计复习资料精品.docx》由会员分享,可在线阅读,更多相关《生物统计复习资料精品.docx(24页珍藏版)》请在冰点文库上搜索。
生物统计复习资料精品
第一章统计数据的搜集与整理
1.1.3抽样
从总体获得样本的过程称抽样,抽样的目的是希望通过对样本的研究推断其总体。
抽样方法有随机抽样、分类抽样等。
1.1.4随机抽样
要求总体中的任何个体都有同等的机会被抽到;要求抽样时不受任何主观因素的影响。
1.1.5放回式抽样和非放回式抽样
放回式抽样:
从总体中抽出一个个体,记下它的特征后,放回总体中,再做第二次抽样。
非放回式抽样:
从总体中抽出个体后,不再放回。
1.2.1连续型数据和离散型数据
连续型数据(度量数据):
与某种标准做比较所得到的数据.例如:
长度,时间,重量。
对连续型数据进行分析的方法,通常称为变量的方法。
离散型数据(记数数据):
由记录不同类别个体的数目所得到的数据.例如:
尾数,成活或死亡个数对离散型数据进行分析的方法,通常称为属性的方法。
1.3样本的几个特征数
1.3.1平均数:
数据集中点的度量
1.3.2标准差:
数据的变异程度
平均离差样本方差标准差
1.3.3偏斜度和峭度
偏斜度:
度量数据围绕众数呈不对称的程度。
用三阶中心矩m3:
m3=0,说明曲线对称于平均数,此时平均数等于中位数也等于众数。
m3>0,说明曲线向左偏斜,称左偏或正偏,此时众数小于中位数,而中位数小于平均数。
m3<0,说明曲线向右偏斜面,称右编或负偏,此时平均数小于中位数,而中位数小于众数。
偏斜度判断方法同m3
g2=0,认为数据是正态的;g2>0,说明曲线过于陡峭;
g2<0,说明曲线过于平坦
峭度
1.3.4变异系数CV:
用来表明样本标准差对平均数的变异幅度。
可以用来判断数据整齐程度,变异系数比较小的数据组比较整齐。
第二章概率和概率分布
2.1概率的基本概念
自然现象:
确定性现象和非确定性现象(随机现象),统计学所研究的是非确定性现象.
2.1.1概率的统计定义
设k次随机试验,成功事件A出现l次,则称l/k是K次随机试验中成功的频率。
频率是由样本数据计算得到的。
随着K的增大,频率l/k将围绕着某一确定的常数P做平均幅度愈来愈小的变动,这就是所谓频率的稳定性,其中P即为事件A的概率。
简单的说概率就是频率的稳定值。
性质:
任何事件A的概率均满足:
0≤P(A)≤1
必然事件W的概率为1,即P(W)=1
不可能事件(V)的概率为0,即P(V)=0
2.2概率分布
随机变量:
在随机试验中被测定的量,所取得的值称为观察值。
可分为离散型随机变量和连续型随机变量。
离散型随机变量:
可能取得的数值为有限个或可数无穷个孤立的数值。
连续型随机变量:
可取某一(有限或无限)区间内的任何数值。
2.2.3概率分布与频率分布的关系
通过样本数据得到的频率分布称为统计分布或经验分布,描述总体的概率分布称为理论分布或总体分布。
频率分布可出现各种类型:
两侧对称,不对称,但对于不同的频率分布均有相应理论分布
2.3总体特征数
•样本特征数是描述频率分布特征的:
统计量
•总体特征数是描述概率分布特征的:
参数
•总体特征数包括随机变量的数学期望(理论平均数),方差和各阶矩
2.4几种常见的概率分布律
2.4.1二项分布
•其特征如下:
–每次试验只有两个对立结果(A和Ā);
–N次试验是重复,独立的。
2.4.2正态分布
•正态分布密度函数的图像称为正态曲线
σ的大小,决定曲线的“胖”、“瘦”程度,
σ越小,曲线越“瘦”,数据越集中,
σ越大,曲线越“胖”,数据越分散。
σ固定时,μ值决定曲线的位置,
当μ增大时曲线向右平移,
当μ减少时曲线向左平移,但曲线形状不变。
正态分布规律是数据分布两头少,中间多,两侧对称。
标准正态分布
μ=0,σ=1时的正态分布称为标准正态分布N(0,1)。
其密度函数和累积分布函数分别为:
重要特征值正态分布的偏斜度和峭度都为0
u=-1到u=1面积为0.6827
u=-2到u=2面积为0.9543
u=-3到u=3面积为0.9973
u=-1.960到u=1.960面积为0.9500
u=-2.576到u=2.576面积为0.9900
对于一般正态分布,要先将进行标准化:
例3.10:
已知高粱品种“三尺三”株高服从正态分布N(156.2,4.822),求
(1)X<161cm的概率:
(2)X>164cm的概率;(3)X在152-162cm的概率。
(1)P(X<161)=?
(2)P(X>164)=?
(3)P(152 中心极限定理: 研究随机变量和的极限分布是正态分布的一类定理,称为中心极限定理 有了这个定理,才能从单个样本的n个数据所得到的统计量对总体进行估计。 例.2.14X为垂钓者在1h内钓上的鱼数,其概率分布如下表: x 0 1 2 3 4 5 6 p(x) 0.001 0.010 0.060 0.185 0.324 0.302 0.118 问 (1)期望1h内钓到的鱼数? (2)它们的方差? 第三章抽样分布 3.1从一个正态总体中抽取的样本统计量的分布 从一个已知的总体中,独立随机的抽取含量为N的样本,研究所得的样本的各种统计量的概率分布,称为抽样分布. 3.1.1样本平均数的分布 标准差已知时平均数的分布服从正态分布-平均数服从N(μ,σ2/n) –其标准化公式: 标准化的分母()称为平均数的标准误差。 标准差未知时平均数的分布服从t分布-服从具n-1自由度的t分布 -其标准化公式: 分母()称为样本标准误差。 t分布的单侧分位数和双侧分位数(附表4) -上侧分位数: P(t>t)=α时的t值; -下侧分位数: P(t -双侧分位数: P(ltl>t/2)=α时的t值 3.1.2样本方差s2的分布服从n-1自由度的卡方分布 标准化: 2df=(n-1)s2/σ2 3.2从两个正态总体中抽取的样本统计量的分布 3.2.1标准差已知时 两个平均数和与差的分布 3.2.2标准差未知但相等时 两个平均数和与差的分布 3.2.3两个样本方差比的分布—F分布 第四章统计推断 -由样本推断总体: 样本统计量的分布规律一般是正态分布、t分布、2分布和F分布。 统计假设检验: 先对所估计的总体做一假设,然后通过样本数据推断这个假设是否接受,这种途径称为统计假设检验 4.1单个样本的统计假设检验 小概率原理: 在一次试验中,几乎是不会发生的,若根据一定的假设条件计算出来的该事件发生的概率很小,而在一次试验中它竟然发生了,则可认为原假设条件不正确,给予否定。 在生物统计的显著性检验中,通常取5%或1%小概率为显著性水平,记为“” 单侧检测 •上尾检验: 拒绝H0后,接受>0,如下左图。 •下尾检验: 拒绝H0后,接受<0,如下右图。 双侧检验 •双侧检验: 拒绝H0后,接受0,如下图。 -由于单侧检验时利用了已知有一侧是不可能的这一条件,从而提高了它的辨别力,所以单侧检验比双侧检验的辨别力更强些。 两种类型的错误 -Ⅰ型错误: 假设是正确的,却错误地拒绝了它。 犯Ⅰ型错误的概率不会大于。 (以真为假) -Ⅱ型错误: 当0但错误地接受了=0的假设时所犯的错误。 (以假为真) 关于两种类型错误的三点解释 -当1越接近于0时,犯Ⅱ型错误的概率愈大;当1越远离0时,犯Ⅱ型错误的概率愈小。 -在样本含量和样本平均数都固定时,为了降低犯Ⅰ型错误的概率(就应将图5-2中的竖线右移),必然增加犯Ⅱ型错误的概率。 -为了同时降低和就需增加样本含量。 4.1.3已知单个平均数显著性检验: u检验 例.已知豌豆的重量(mg)服从正态分布N(377.2,3.32)。 在改善栽培条件后,随机抽取9粒,其籽粒平均重为379.2,若标准差仍为3.3,问改善栽培条件是否显著提高了豌豆籽粒重量? 根据题意,本例应进行单侧检验,已知。 1、提出无效假设与备择假设 2、显著性水平规定: =0.05 3、统计量的值: 4、建立H0的拒绝域: 因HA: >0,故为上尾单侧检验,当>0.05时拒绝H0,=0.05的上侧分位数0.05=1.645。 5、结论: 因为>0.05所有拒绝H0,接受HA。 即栽培条件的改善显著提高了豌豆籽粒重量。 4.1.4未知时平均数显著性检验: t检验 例.母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异? 根据题意,本例应进行双侧t检验。 1、 提出无效假设与备择假设 2、显著性水平规定=0.05 3、统计量的值: 4、建立拒绝域: 因,故为双侧检验,当|t|>t(双侧)时拒绝H0,由=9,查t值表(附表3)得t0.05(9)=2.262。 5、结论: 因为|t| =114。 表明样本平均数与总体平均数差异不显著,可以认为该样本取自母猪怀孕期为114天的总体。 4.1.5变异性的显著性检验: 2检验 例.一个混杂的小麦品种,株高标准差0=14cm,经提纯后随机抽取10株,它们的株高为: 90,105,101,95,100,100,101,105,93,97,考察提纯后的群体是否比原群体整齐? 1、小麦株高是服从正态分布的随机变量 2、提出假设 关于备择假设的说明: 小麦经提纯后只能变得更整齐,绝不会更离散,即只能小于0,因此HA: <0。 3、显著性水平规定=0.01 4、统计量的值: 5、建立的拒绝域: 因HA: <0,故为下尾单侧检验,当2<21-时拒绝H0,从附表6中可以查出29,0.99=2.09 6、结论,因2<29,0.99,拒绝H0,接受HA,提纯后株高比原株高整齐。 4.2两个样本的显著性差异检验 4.2.1两个方差的检验(方差齐性分析)—F检验 1.假定从两个正态总体中,独立地抽取含量分别为n1和n2的两个随机样本,计算出s12和s22.总体平均数可以相等也可以不等. 2.零假设H0: 1=2.备择假设 1HA: 12若已知1不可能小于2。 2HA: 12若已知1不可能大于2。 3HA: 12包括12和12。 3.显著性水平: 经常用=0.05和=0.01两个水平。 4.统计检验量: Fdf1,df2=s12/s22,df1=n1-1df2=n2-1。 5.建立H0的拒绝域: 112,上尾单侧检验,FF时拒绝 212,下尾单侧检验,FF1-时拒绝 312,,双侧检验,FF/2及FF1-/2时拒绝。 6.作出结论并解释。 4.2.2标准差(σi)已知时,两个平均数间差异显著性的检验—u检验 例: 调查两个不同渔场的马面鲀体长,每一渔场调查200条。 平均体长分别为19.8cm和18.5cm。 σ1=σ2=7.2cm。 问在α=0.05水平上,第一渔场的马面鲀体长是否显著高于第二渔场的? 解: 根据检验的基本程序: (1)马面鲀体长是服从正态分布的随机变量,两样本是独立获得的。 (2)假设: H0: μ1=μ2HA: μ1>μ2 (3)显著性水平: α=0.05。 (4)计算统计量的值: u=1.80。 (5)建立H0的拒绝域: 因HA: μ1>μ2,故为上尾单侧检验。 当u>u0.05时拒绝H0,由附表查出u0.05=1.645。 (6)结论: 因u>u0.05,所以接受H0。 结论是第一渔场的马面鲀体长显著高于第二渔场的。 4.2.3标准差(σi)未知,但相等时,两个平均数间差异显著性的检验—成组数据t检验 •例5.10研究两种激素类药物对肾组织切片的氧消耗的影响,结果是: 研究第一种药物的样本数为9,平均数为27.92,样本方差为8.673。 研究第二种药物的样本数为6,平均数为25.11,样本方差为1.843。 问两种药物对肾组织切片氧消耗的影响差异是否显著? 解: 第一步,做方差齐性检验: H0: σ1=σ2,HA: σ1≠σ2,α=0.05 F8,5=8.673/1.843=4.71,F8,5,0.025=6.757 F8,5,0.975=1/4.817=0.208,F8,5,0.975 ,结论是接受H0(σ1=σ2) 第二步,做平均数之间差异的显著性检验: H0: μ1=μ2,HA: μ1≠μ2,α=0.05;计算统计量t=2.168。 t0.05(双侧)=2.160,t>t0.05,结论是在α=0.05水平上两种药物对肾组织切片氧消耗的影响刚刚达到显著。 4.2.5配对数据的显著性检验——配对数据的t检验 用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见下表。 设体温服从正态分布,问注射前后体温有无显著差异? 第五章参数估计 5.1点估计 •定义: 用样本数据所计算出来的单个数值,对总体参数所做的估计称为点估计。 •一个好的估计量应满足: 无偏性、有效性、相容性。 5.2.2μ的置信区间1-α σ已知时μ置信区间: 作题步骤: a查附表3,得u(双侧)的值 b代入 (1)式,得置信区间 未知时μ的置信区间: t具n-1自由度 作题步骤: a查附表4,得t(双侧)的值 b代入 (1)式,得置信区间 第六章拟合优度检验(即2检验) 6.1拟合优度检验的一般原理 拟合优度检验: 是用来检验实际观测数与依照某种假设或模型计算出来的理论数之间的一致性,以便判断该假设或模型是否与观测数相配合。 适合性检验: 检验总体是否与某种理论分布或模型相符合,称为适合性检验。 独立性检验: 按两个标志(两向)分类的记数资料排成横行与纵列的表格,称为列联表。 检验列联表内横、纵两向的标志在个体上的出现是否相关,称为独立性检验。 6.1.2用于2检验的三个公式 P= (a+b)! (c+d)! (a+c)! (b+d)! (N! a! b! c! d! ) 6.2.2对二项分布的检验 例7.1黄圆豌豆与绿皱豌豆杂交,第二代分离数目如下: 如问是否符合自由组合规律? Y_R_(黄圆) Y_rr(黄皱) yyR_(绿圆) Yyrr(绿皱) 总计 315 101 108 32 556 解: Y_R_ Y_rr yyR- yyrr 实际观测数 315 101 108 32 理论频率p 9/16 3/16 3/16 1/16 理论数T 312.75 104.25 104.25 34.75 O-T 2.25 -3.25 3.75 -2.75 (O-T)2 5.0625 10.5625 14.0625 7.5625 (O-T)2/T 0.016 0.101 0.135 0.218 2=0.016+0.101+0.135+0.218=0.470 理论数Ti均大于5,不需合并,H0: O-T=0,=0.05 因为计算理论数时参数=3/4已知,不需要用样本估计,因此a=0,df=4-1=3 23,0.05=7.8152<20.05接受H0,符合9: 3: 3: 1的分离比,df=3,不需矫正。 例7.2用正常翅的野生型果蝇与残翅的果蝇杂交,F1代均表现为正常翅。 F1代自交,所得F2代中包括311个正常翅和81个残翅。 问这一分离比是否符合孟德尔3: 1的理论比。 解: 正常翅 残翅 O-T-0.5 (O-T-0.5)2 (O-T-0.5)2/T 16.5 272.25 0.926 16.5 272.25 2.778 2=0.926+2.778=3.704 H0: O-T=0,α=0.05,df=1,20.05=3.841,2<20.05 结论: 正常翅与残翅的分离比符合3: 1 6.3.1列联表(2×2)2检验的一般程序 例7.3下表是不同给药方式与给药效果表。 问给药方式是否与给药效果无关? 给药方式 有效 无效 总数 有效率 口服 注射 总数 58 64 122 40 31 71 98 95 193 59.2% 67.4% 解: 有效 无效 总数 口服 O1=58 O2=40 98 T1=(98)(122)/193=61.95 T2=(98)(71)/193=36.05 注射 O3=64 O4=31 95 T3=(95)(122)/193=60.05 T4=(95)(71)/193=34.95 总数 122 71 193 结论是用口服方式给药与注射方式给药的效果没有显著不同,因为已经接受H0,不必再矫正。 R×c列联表 Tij=(i行总数)(j列总数)/总数 例7.4用40Kr+N2,40Kr,25Kr的射线照射“天津一号”大麦。 将处理后的种子做根尖压片,观察染色体畸变情况,得到以下结果 处理方式 有桥细胞数 无桥细胞数 总数 40Kr+N2 192 3378 3570 40Kr 319 3297 3616 25Kr 194 3620 3814 问不同处理方式所引起的染色体畸变的差异是否显著? 解: 将计算出的数据列入下表 处理方式 有桥细胞数 无桥细胞数 总数 40Kr+N2 O1=192 O2=3.378 3570 T1=228.8 T2=3341.2 40Kr O3=319 O4=3297 3616 T3=231.8 T4=3384.2 25Kr O5=194 O6=3620 3814 T5=244.4 T6=3569.6 总数 705 10295 11000 结论是拒绝H0,三种不同的处理方式所引起的染色体畸变数不一样。 6.3.22×2列联表的精确检验法 例7.6观测性别对药物的反应如下,问男女对该药是否有区别? 有 无 男 女 4 3 7 1 6 7 5 9 14 解: 根据式(7.5),计算得P1=0.122 由于每一格的实际观测数均未再现0,这时还应将四格中最小的那个数再逐个降低到0。 并保证在行列及总数均不变的情况下,计算每一种情况的概率。 本例中只有一种: 5 2 0 7 5 9 7 7 14 故P2=0.010(根据式7.5) P=P1+P2=0.132。 做双侧检验,设α=0.05,每一尾区概率为0.025,P=0.132>0.025,接受不存在处理效应的假设,结论是男女对该药物的反应没有区别。 第七章单因素方差分析 方差分析是一类特定情况下的统计假设检验,平均数差异显著性检验----成组数据t检验的一种引伸。 7.3固定效应模型 7.3.1线性统计模型 零假设为: H0: α1=α2=…=αa=0 备择假设为: HA: αi≠0(至少有一个i) 7.5多重比较 多重比较就是对各处理平均数之间一对一地做比较,以找出哪些处理之间存在差异。 7.5.1最小显著差数法(LSD法) 当时差异显著 称为最小显著差数,记为LSD,每一对平均数的差值与LSD比较,大于LSD差异显著。 7.5.2Duncan多范围检验 Ducan检验方法如下: 首先将需要比较的a个平均数依次排列好,使之 • ra(k,df)的值可以从附表9中查出。 因为平均数共有a个,所以需查出a-1个ra,分别乘以 •将不同对平均数的差与相应的临界值Rk相比较,若平均数的差大于Rk,则差异显著,否则不显著。 7.6方差分析应具备的条件 •可加性: 每个处理效应与误差效应是可加的,由于有这一假定,不同的效应才能被分解,才能最终判断处理效应是否比误差效应更显著。 •正态性: 实验误差应当是服从正态分布的独立随机变量。 因此,被检验的每一个总体也应该是正态分布的。 •方差齐性: 各处理的误差方差应具备齐性,它们有一个公共的总体方差。 第八章两因素及多因素方差分析 8.1.1主效应与交互作用 •由于因素水平的改变而造成因素效应的改变称为该因素的主效应。 •由于因素之间的相互作用造成效应的改变是交互作用。 8.2固定模型 8.3随机模型 8.4混合模型 第九章一元回归及简单相关分析 9.1回归与相关的基本概念 相关关系: 设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个确定的分布与之相对应,称这两个随机变量间存在相关关系。 回归分析: 是研究一个变量对另一个变量的单向依存关系,即研究一个变量随另一个变量变化而变化。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计 复习资料 精品