农业推广硕士生物统计思考题1011.docx
- 文档编号:15539642
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:21
- 大小:122.01KB
农业推广硕士生物统计思考题1011.docx
《农业推广硕士生物统计思考题1011.docx》由会员分享,可在线阅读,更多相关《农业推广硕士生物统计思考题1011.docx(21页珍藏版)》请在冰点文库上搜索。
农业推广硕士生物统计思考题1011
绪论
2、生物统计学的地位和作用
2.1生物统计学为定量地研究生命现象提供了有力的研究手段
(1)生物统计学在不同领域得到广泛应用
鱼类生态学(怀卵量、体重分布、年龄与生长)
渔业资源学(种群增长模型)
分子生态与遗传学(生物多样性及亲缘关系分析)
系统进化学(鱼类形态差异的判别)
……
(2)应用实例
2鱼类怀卵量分布(图1)、鱼类体重分布(图2)
2鱼类的年龄和生长(图3)、鱼类种群的J型增长(图4)
图3图4
2鱼类形态差异的判别分析
通过多个形态学指标的测定,建立不同种类的判别函数,进而对个体的种类归属进行判断。
2.2生物统计学为科学地进行试验设计提供了理论指导
●为试验和研究的内容设计提供直接的理论依据和重要原则,便于工作的正确和顺利实施。
在生物学研究中,以统计学原理为指导,进行科学合理的试验设计,可以在较少的人力、物力、时间和条件下,获得可靠而准确的数据和信息。
如:
样本容量的确定,抽样方法、处理设置、重复次数的确定以及试验的安排等,都必须以统计学原理为依据。
●科学合理的试验设计又为数据的进一步分析奠定了基础。
统计原理和分析方法对试验设计有着积极的指导意义,但它绝对不可能代替试验设计。
如果试验目的、要求不明确,试验设计不合理,试验条件不合适,统计数据不准确,这种试验也绝对不会成功,统计原理和分析方法都不可能挽救试验的这种失败。
举例:
鱼类对细菌的免疫吞噬活性的研究试验,涉及到养殖水温、试验水温、细菌种类、免疫与非免疫等多种试验因子,设计时要充分考虑。
2.3生物统计学是数据处理和科学分析的重要工具
●提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征
一批试验或数据资料,若不整理则杂乱无章,不能说明任何问题。
统计方法提供了整理资料、化繁为简的科学程序,它可以从众多的数据资料中,归纳出几个特征数或给出一定形式的图表,使试验研究者能从少数的特征数或一些简单的图表中了解大批资料所蕴藏的信息。
●提供由样本推断总体的统计原理和方法
试验的目的在于认识总体规律,但由于总体庞大,一般无法实施。
在研究过程中都是抽取总体中的部分作为样本,用统计方法以样本来推断总体的规律性。
在这种推断中,统计原理和方法起到了理论上的保证作用。
●解释或判断试验结果的规律性或可靠性
一般在试验中要求除试验因素以外,其它条件都应控制一致,但在实践中无论试验条件控制得如何严格,其试验结果总是受试验因素和其它偶然因素的影响。
偶然因素的影响就是造成试验误差的重要原因。
一个试验结果,是由试验因素造成的还是试验误差造成的,要正确判断就必须应用统计分析方法。
5、常用统计学术语
5.1试验与事件(Experiment&Event)
●试验:
是一个综合条件的实现或实施,假定这种综合条件可以任意地重复实现很多次。
举例:
抛掷一分硬币,判断“国徽朝上”;
研究几种不同配方饲料对鲤鱼生长的影响,以确定鲤鱼的营养配方。
●事件:
是试验的结果和现象。
(必然事件、不可能事件、随机事件)
(A)必然事件:
在一定试验条件下必然发生的事件。
(B)不可能事件:
在一定试验条件下不可能发生的事件。
(C)随机事件:
在一定试验条件下,某现象A可能发生,也可能不发生的事件。
举例:
规格相同的鲤鱼,♀7尾,♂3尾,放入一个水族箱中,从中任意抽取4尾。
则:
至少有1尾♀的事件为必然事件,4尾均为♂的事件为不可能事件。
布袋中红黄两色玻璃球各1个,从中任取一球,则“所取玻璃球为红色”的事件为随机事件。
5.2频率与概率(Frequency&Probability)
●频率:
在n次试验中,某随机事件A发生的次数(频数)占试验总次数的比率。
●概率:
频率的稳定值叫该随机事件的概率。
举例:
多次抛掷硬币,“国徽朝上”的频率应接近1/2,而概率为1/2。
5.3总体与样本(Population&Sample)
●总体:
指一个统计问题所研究对象的全体。
总体更确切一点是指“统计总体”,即研究的对象不是构成总体各因素的本身,而是各因素的某些指标。
¡个体(Individual):
组成总体的每一个元素(基本单元)称为个体。
¡总体容量(N):
构成总体的所有个体数目,表示总体的大小。
¡总体的类型:
有限总体——个体有限的总体
无限总体——个体极多或无限多的总体称为无限总体。
●样本:
从总体中抽取一定数量的个体进行研究,作为统计的依据。
被抽取的若干个个体组成的集合称为样本。
¡抽样的原因:
总体的无限性、试验的破坏性
举例:
研究鲤鱼的怀卵量(繁殖生物学),不可能将一个天然水域的所有鲤鱼全部捕捞起来,再进行全部解剖。
¡样本容量(n):
样本中包含个体的数目。
小样本:
n≤30
大样本:
n>30
¡随机抽样(RandomSampling):
指总体中的每一个个体都有相等的机会被抽作样本的一种方法。
为了避免主观和偏见,便于对研究的总体作出无偏估计,故采用随机抽样的方法。
¡随机样本:
随机抽取的样本。
5.4参数与统计量(Parameter&Statistics)
●参数:
总体的特征数。
是指由总体的全部观察值计算所得到的特征数。
¡如:
总体平均数(μ)、总体方差(σ2)、总体标准差(σ)等均为参数。
¡总体参数是一个固定的值,通常是未知的。
¡观察值:
某一个体性状或特征的测定值。
¡变量(变数、随机变量):
凡是表现出变异的观察值。
●统计量:
样本的特征数。
是指由样本中计算所得到的特征数。
¡如:
样本平均数(
)、样本方差(s2)、样本标准差(s)等均为统计量。
¡统计量是样本的已知函数。
其作用是将样本中有关总体的信息汇集起来,作为总体参数的估计值。
统计量依赖且只依赖样本,不含总体分布的任何未知参数。
●参数与统计量的关系
5.5误差与错误(Error&Mistake)
●(试验)误差:
指试验中因无法控制的随机因素所引起的差异。
¡误差不可避免
●错误:
指在试验过程中,由于人为的作用所引起的偏差。
¡举例:
粗心大意,仪器校正不准、药品配制比例不当、称量不准确、抄错数据、计算错误等,在试验中是完全可以避免的。
5.6准确性与精确性(Accuracy&Precision)
●准确性(准确度):
指在试验过程中某一试验指标和性状的观察值与真值接近的程度,即统计量接近参数真值的程度。
¡说明测定值对真值符合程度的大小。
¡设:
真值为μ,观察值为x,若
小,则观察值的准确度高。
●精确性(精确度):
指在试验过程中同一试验指标和性状的重复观察值彼此接近的程度,即样本中各个变数间的变异程度的大小。
¡说明多次测定值的变异程度。
¡设:
和
为观察值,若
小,则观察值的精确性高。
第1章试验资料的整理和特征数的计算
1试验资料的整理
1.1试验资料的类型
1.1.1试验资料的性质
对于生物学试验及调查所得的资料,由于使用方法和研究的性状特性不同,其资料性质也不相同。
根据生物的性状特性,大致可分为数量性状和质量性状两大类。
(1)数量性状
●可量性状:
能够以测量、称量、度量的方法表示出来的性状。
即“度量衡”。
举例:
鱼的体高、体重、产量等
●可数性状:
不能用计量方法表示,只能用计数方法表示的性状。
如:
鱼的尾数、鱼的怀卵量等
(2)质量性状
●只能观察而不能测量、度量的性状,只能用定性的结果表示的性状。
举例:
鱼的体色、性别、胃内食物的组成、病的有无;花的颜色等无法用尺度度量的或互不相容的属性。
1.1.2试验资料的分类
根据观察和测量对象的性质,可分为:
(1)数量性状资料
●计量资料:
用度量衡等计量工具测量后而得到的资料。
也称为连续性变数资料,其数据用长度、容积、重量来表示。
测定的各个变数,既可是整数,也可是小数,中间连续不断。
在统计学中,将可取某一范围内的所有值的变数,称为连续性变数,这类资料也称为连续性变数资料。
举例:
鱼的体重、体长资料。
●计数资料:
由计数的方式而得到的资料。
这种变数必须用整数来表示,两整数之间的数值是不连续的,不可能带有小数。
这种不连续的变数称为间断性变数(或离散性变数),这类资料又称为间断性变数资料。
举例:
渔获物中某种鱼的尾数,每只鳖的产卵数等。
(2)质量性状资料(属性性状资料)
指从质量性状(属性性状)获得的资料。
一般需先将质量性状数量化,才能进行统计分析。
可采取以下两种方法获得这类资料的数据资料:
●统计次数法:
此方法多用
首先,按资料的属性类别进行分组,组数=分类数;
然后,统计各组(即各类别)出现的次数,以次数来作为质量性状的数据。
●评分法:
将质量资料的分类数量化。
即采用某一尺度,给予每一类性状以相应的数量。
(A)公称尺度(NominalScale)
举例:
用1代表♂,0代表♀;反之亦然。
这样就将性别的资料数量化了。
再举例:
可以用不同的数字代表不同的省份和直辖市。
(B)等级尺度(RankScale)
举例:
鱼类精液品质可以评为三级,好的评为10分,较好的评为8分,差的评为5分。
这样,就可以将质量性状资料量化了。
又举例:
学生的成绩(优、良、中、及格、不及格)、年龄的分组(少年、青年、中年、老年),它们不是真实的距离,只是相对的位置。
(C)间距尺度(IntervalScale)
举例:
华氏或摄氏温度计最能说明划分尺度时的人为习惯。
摄氏0等于华氏32,但0℃并非没有温度。
又举例:
日历、智商等所用的尺度。
数量化的质量性状资料可以参照计数资料的处理方法进行处理。
1.2试验资料的整理
1.2.1数据的分组与次数分布表
调查或试验所得的数据资料,经过检查与核对后,根据数据的多少来考虑数据的分组问题,确定是否分组。
一般地
样本容量n≤30的小样本:
不必分组,可直接进行统计分析
样本容量n>30的大样本:
需将数据分成若干组,以便进行统计分析。
数据经过分组归类后,可以制成有规则的次数分布表,进而作出次数分布图。
(1)计数资料(间断性变数资料)的整理与分组
●方法:
基本上采用“单项式分组法”。
●特点:
用样本变数的自然值进行分组,每组均用一个(或几个)变数值来表示。
●次数分布表:
分组后,将数据资料中每个变数分别归入相应的组内,然后制成次数分布表。
(2)计量资料的整理
●方法:
采用“组距式分组法”。
●步骤:
分6步进行。
先确定全距、组数、组距、组中值、各组上下限,然后按观测值的大小来归组。
(3)质量性状资料的整理与分组
●质量性状的分析,须先将质量性状数量化,常采用“统计次数法”。
●分组统计时,按资料的属性类别进行分组,再统计各组出现的次数,组数=分类数,即可得到次数分布表。
1.2.2次数分布图
●常用的次数分布图包括:
柱形图、直方图和多边形图。
(1)直方图(柱形图)
●用途:
适合于表示连续性变数资料(计量资料)的分布。
即用矩形的面积来表示次数分布表中各组数据出现的次数。
●绘制方法:
以各组的组限为横坐标,次数为纵坐标。
在各组距上画直方图,其高度根据落在该组的次数决定。
各组的直方图之间没有间隔。
(2)多边形图
●用途:
也是表示计量资料次数分布的常用方法。
在同一个图上可以比较两组以上的资料。
●绘制方法:
以各组的组中值为横坐标,以各组的次数为纵坐标,进行描点。
然后将相邻的两点用线段顺次连接。
为了使多边形与直方图的面积大致相等,使多边形两端在横轴上向两边各移一个组距后,与横轴相交。
(3)条形图
●用途:
用于表示计数资料和质量性状资料的分布。
●绘制方法:
分类性状为横坐标,以绝对数或相对数为纵坐标,等间距绘制与x轴垂直的柱形或线条。
2试验资料特征数的计算
由次数分布,我们可以看出变量的分布具有两个明显的基本特征:
集中性和离散性。
2.1平均数——样本集中趋势(集中性)的度量
在数理统计中,用以反映一组变数的集中趋势的指标有5种,统称为平均数的范畴。
平均数的意义:
平均数是最重要和最常用的统计值之一,可作为一个资料的代表值,表示次数分布的中心位置,用来与另一资料进行比较。
2.1.1平均数的种类
(1)算术平均数(Mean,Average)
总体或样本中各个观测值的总和除以观测值个数所得的商,称为算术平均数,简称平均数或均数。
●总体平均数:
若有限总体的N个观测值为X1,X2,…,Xn,则总体平均数为:
μ=(∑X)/N
●样本平均数:
若样本的n个观测值为x1,x2,…,xn的,则样本平均数为:
=(∑x)/n
●在统计学上,以希腊字母表示总体的参数,以拉丁字母表示样本统计量。
(2)中(位)数(Median,简称Md或Med)
●将资料中所有观测值从小到大依次排列,居中间位置的数,称为中位数(对奇数个变数)。
●若变数的个数为偶数,则以中间两个观测值的算术平均数为中数。
(3)众数(Mode,简称Mo)
●在一组数据中,出现次数最多的一个变数,称为众数。
例如:
鞋的尺码
●或在次数分布表中,次数最多一组的中点值,即为众数。
●众数有时不止一个,有时没有众数。
(4)几何平均数(Geometricmean,简称G)
●n个非负观测值x1,x2,…,xn的乘积的n次方根,称为几何平均数。
●如果相邻数值的增长成比例关系,则可以用几何平均数表示它们的集中趋势。
●几何平均数可以消除极端值使算术平均数估计集中趋势有偏大或偏小的倾向,能更好地代表数据的集中趋势。
(5)调和平均数(Harmonicmean,简称Mh)
●设:
x1,x2,…,xn都为正数(或全为负数),则调和平均数的倒数等于这些变数倒数的算术平均数。
即
上述五种平均数中,算术平均数最常用,中位数、众数和几何平均数使用较少。
2.1.3算术平均数的基本性质
●离均差之和为零。
●离均差平方和为最小。
●这两个性质在方差分析模型的推导中广泛应用。
2.2变异数——样本离中趋势(离散性)的度量
以下是3组数据资料,各组的平均数相同(
),但变异程度却明显不同:
(1)8,8,9,10,11,12,12
(2)5,6,8,10,12,14,15
(3)1,2,5,10,15,18,19
用来表示变异性的指标较多,常用的有:
极差、标准差、方差和变异系数等,其中以标准差和变异系数应用最为广泛。
2.2.1极差(Range)
●极差:
又称全距,是样本中的最大值和最小值之差,一般用R表示。
R=max{x}-min{x}
●极差是用“范围”来度量离散性的一个最简单指标。
●极差的写法:
在极差后面标上样本观察值的变化范围,即
R=极差(最小值-最大值)
●极差的应用:
虽然极差在一定程度上能说明样本波动的大小,但由于没有利用样本的全部信息,易受不正常的极端值的影响,不能代表各个观测值的变异程度,因而,它只能在研究小样本的波动时使用,具有一定的局限性。
2.2.2方差(MeanSquare,MS)
(1)样本和总体方差的计算公式
●样本方差(或均方)s2
●总体方差σ2
其中:
n-l为自由度。
N为有限总体容量。
●s2是σ2的最好估计值。
●方差是度量资料变异的常用指标,在统计分析中有较广泛的应用。
2.2.3标准差(StandardDeviation,SD)
(1)标准差的定义
方差虽能反映变量的变异程度,但由于离均差取了平方值,使得它与原始数据的数值和单位都不相适应,需要将方差开方还原。
●标准差:
方差的平方根值就是标准差。
●样本标准差s:
●总体标准差σ:
●样本标准差s是总体标准差σ的最好估计值。
(2)标准差的计算
●直接法:
利用公式直接计算
●间接法(矫正数法)
由于:
离均差平方和
所以:
标准差
2.2.4变异系数(CoefficientofVariation,CV)
(1)定义
●变异系数:
是样本的标准差相对于其平均数的百分数,用CV表示。
●计算公式:
●变异系数是一种相对指标,既能反映样本的离散程度(s),又能表示出集中趋势(
),因而是一项表示相对离散度的指标。
用变异系数可以比较不同样本相对变异程度的大小。
(2)应用
●在用CV表示样本的变异程度时,宜同时列出标准差和平均数,以免引起误解;
●CV的使用范围有限,运用到显著性检验时可靠性低。
【本章思考题】
1.根据试验资料的性质,可以将试验资料分为哪几类?
各有何特征?
2.什么是计量资料?
什么是计数资料?
什么是质量资料?
三种资料分别采用什么方法进行分组整理?
3.什么是次数分布表?
什么是次数分布图?
制表和绘图的基本步骤有哪些?
制表和绘图各包含哪些主要元素?
4.常用的次数分布图有哪三种?
分别适用于什么资料的整理?
5.平均数在统计分析中有何意义和用途?
平均数是否仅指算术平均数?
6.算术平均数有哪二条基本性质?
7.常见的变异数有哪几种?
变异数在统计分析中有什么意义和用途?
8.什么是标准差和方差?
9.什么是变异系数?
它有何特性?
生物统计思考题
一、统计名词
1.参数:
总体的特征数,是指由总体的全部观察值计算所得到的特征数。
2.标准差:
方差的平方根值就是标准差。
3.计量资料:
通过度量衡等手段获得的数据资料,为连续性变数资料。
4.试验处理:
施加给试验单元的条件称为处理。
在单因子试验中,因子的某一水平就是一种处理;在多因子(析因)试验中,不同因子的不同水平的组合叫做处理。
5.相关分析:
是研究随机变量之间“相关关系”的一种统计方法。
用于研究两个或数个变量共同变化的程度,主要通过计算相关系数来判断这种相关关系的强弱。
6.统计量:
样本的特征数。
是指由样本中计算所得到的特征数。
7.标准误:
样本平均数的标准差。
8.计数资料:
由计数的方式而得到的资料。
也称为间断性变数资料。
这种变数必须用整数来表示,两整数之间的数值是不连续的,不可能带有小数。
9.试验水平:
一个试验因子的不同数量等级或不同状态。
10.回归分析:
是研究一个随机变量y与另一些变量(主要为固定变量)关系的一种统计方法。
即将一个变量y表述为另一些变量的函数,并通过建立变量间的函数关系,达到根据一个或一些变量的取值去估计或预测另一个变量的目的。
二、简答题
1.t检验适用于什么数据的分析比较?
假设检验的基本解题思路和步骤是什么?
答:
t检验适用于单个样本平均数、两个独立样本平均数、两个配对样本平均数差异的显著性检验,一般在样本容量小于30时采用。
假设检验的基本解题思路和步骤为:
1)对样本所属总体提出无效假设H0和备择假设HA
2)按需要确定检验的显著性水平α
3)在H0为正确的前提下,根据检验要求及条件,确定并计算检验统计量
4)根据显著性水平α及检验方法,找出临界值,确定H0的否定域,然后对零假设H0进行判断。
2.方差分析的基本假定是什么?
常采用哪些方法进行数据变换?
答:
(1)方差分析的基本假定是:
分布正态性
方差同质性(方差齐性)
因子效应的加和性(可加性)
(2)方差分析中常用的数据变换方法有:
平方根变换
对数变换
反正弦变换(角变换)
3.方差分析适用于什么数据的分析比较?
方差分析的基本解题思路和步骤是什么?
答:
方差分析适用于比较单因素(或多因素)的多个处理条件下(3个或3个以上)试验结果平均数或百分率之间的差异显著性。
方差分析的基本解题思路和步骤为:
1)将样本数据的总平方和和总自由度分解为各变异因素的平方和和自由度。
2)建立方差分析表,计算出各项均方并进行F检验,以弄清各变异因素在总变异中的重要程度。
3)若F检验显著,则对各处理平均数进行多重比较。
4.假设检验中两类错误的实质分别是什么?
如何减少两类错误的发生?
答:
1)第一类错误实质:
H0是真实的,但假设检验却否定了它(或“以真为假”)
第二类错误实质:
H0不是真实的,但假设检验却接受了它(或“以假为真”)
2)减少两类错误的方法:
在α=0.05(或0.01)就满意的前提下,β越小越好;
β值的大小主要取决于样本容量n的大小。
增加样本容量n,以减小标准误
,是减小两类错误的关键。
三、论述题
1.回归分析与相关分析有何区别和联系?
答:
(1)区别:
回归分析与相关分析的主要差别
统计方法
相关分析
回归分析
研究对象
若干变量一起变化的程度
一个变量与其它变量间的函数关系
变量关系
变量间的共变关系
一个因变量及一个或数个自变量,前者是后者的函数
变量类型
均为随机变量
因变量:
为随机变量
自变量:
为固定变量(为主)或随机变量
统计量
无量纲的相关系数
有单位的回归系数
(2)联系:
从检验结果,即数量上,b与r有着密切的联系,表现出一致性。
对b与r的显著性检验,其实质是完全相同的,b显著,则r必显著;反之亦然。
从相关关系与回归关系的区别来看:
①若自变量为固定变量,则两变量间可进行回归分析,而相关系数没有任何几何意义,r仅可用来间接反映回归方程的显著程度,即表示回归曲线与观测数据的吻合程度。
②如果两个变量均为随机变量,则相关系数与回归系数均存在,这时两种关系的显著性才是真正一致的。
|r|大时,回归方程显著,且变量间线性相关关系密切;当|r|小时,则回归方程不显著,变量间线性相关关系松懈。
2.如何选择合适的曲线方程进行拟合?
判定直线回归方程和曲线回归方程拟合度的指标和方法有何异同?
答:
(1)曲线方程拟合方法:
理论法(经验法):
根据专业知识或前人的经验选用合适的回归方程。
图示法:
描出(xi,yi)的散点图,根据散点的变化趋势画出趋势线,并对照曲线图谱来选用合适的曲线类型。
拟合比较法:
如果采用图示法时遇到几种曲线形式与试验数据较接近,则可同时选择多个曲线方程,求出回归系数后,再比较各个回归方程的拟合情况,从中选出拟合情况较好的回归方程作为所求的一元非线性回归方程。
(2)直线回归和曲线回归方程拟合度的判定方法:
共同点:
都可以采用剩余平方和Q的大小进行判定,Q越小,方程的拟合度越高。
不同点:
决定系数r2适用于线性回归的情况,反映线性回归方程拟合情况的优劣。
相关指数
适用于非线性回归的情况,反映了非线性回归方程拟合的好坏。
四、试验设计
在某水库进行斑点叉尾鮰网箱养殖试验,以比较4种人工配合饲料和2种放养密度对鱼类生长的影响。
请你根据本实验的目的,对以下内容进行设计。
(1)你设计的试验指标、影响因素是什么?
(2)采用什么统计学方法进行设计比较合理?
(3)你设计的具体试验方案是什么?
(4)饲养一段时间后,需要记录每个网箱中斑点叉尾鮰的生长数据。
请你为本实验设计一张记录数据资料的“三线表”。
答:
1)试验指标为斑点叉尾鮰的平均增重;影响因素为配合饲料种类、放养密度。
2)采用完全随机化设计比较合理。
3)具体试验方案:
将同一规格的斑点叉尾鮰随机分为4组,每组8个网箱,每组采用2种放养密度(100尾和150尾),每一放养密度设置4个网箱进行重复试验。
每组网箱分别投喂不同的人工配合饲料,一段时间后,测定每个网箱中斑点叉尾鮰的平均增重量,最后采用两因素有重复观察值的方差分析方法,比较不同配
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业 推广 硕士 生物 统计 思考题 1011