第二章资料的整理Word下载.docx
- 文档编号:1211162
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:16
- 大小:125.25KB
第二章资料的整理Word下载.docx
《第二章资料的整理Word下载.docx》由会员分享,可在线阅读,更多相关《第二章资料的整理Word下载.docx(16页珍藏版)》请在冰点文库上搜索。
半定量或等级资料(semi-quantitativeorrankeddata)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。
这类资料既有次数资料的特点,又有程度或量的不同。
如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;
又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;
然后统计各级别的供试畜禽数。
半定量资料在兽医研究中是常见的。
三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。
例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;
如果按白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料。
第二节资料的整理
在对原始资料进行整理之前,首先要对全部资料进行检查与核对,然后再根据资料的类型及研究的目的对资料进行整理。
一、资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完整性和正确性。
所谓完整性是指原始资料无遗缺或重复。
所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。
检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。
对于有重复、异常或遗漏的资料,应予以删除或补齐;
对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。
资料的检查与核对工作虽然简单,但在统计处理工作中却是一项非常重要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经过统计分析得出正确的结论。
二、资料的整理方法
对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。
当观测值不多(n≤30)时,不必分组,直接进行统计分析。
当观测值较多(n>
30)时,宜将观测值分成若干组,以便统计分析。
将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。
不同类型的资料,其整理的方法略有不同。
(一)计数资料的整理现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理。
表2-250枚受精种蛋孵化出雏鸡的天数
21
20
23
19
24
小鸡出壳天数在19─24天围变动,有6个不同的观察值。
用各个不同观察值进行分组,共分为6组,可得表2-3形式的次数分布表。
表2-350枚受精种蛋出雏天数的次数分布表
孵化天数
划线计数
║
2
║│
3
╫╫╫╫
10
╫╫╫╫╫╫╫╫║║
╫╫║║
9
合计
50
从表2-3可以看出:
种蛋孵化出雏天数大多集中在21−23天,以22天的最多,孵化天数较短(19−20天)和较长(24天)的都较少。
表2-4100只蛋鸡每年产蛋数的次数分布表
产蛋数
200−209
210−219
╫╫║│
8
220−229
╫╫╫╫╫╫
15
230−239
╫╫╫╫╫╫╫╫
240−249
╫╫╫╫╫╫╫╫║│
250−259
╫╫╫╫╫╫║
17
260−269
270−279
║║
4
280−289
290−299
│
1
100
有些计数资料,观察值较多,变异围较大,若以每一观察值为一组,则组数太多,而每组包含的观察值太少,资料的规律性显示不出来。
对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也比较方便。
例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异围为200−299枚。
这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组),如间隔10枚为一组,则可使组数适当减少。
经初步整理后分为10组,资料的规律性就比较明显,见表2-4。
从表2-4可以看到,大部分蛋鸡的年产蛋数在220−259枚,但也有少数蛋鸡每年产蛋数少到200−209枚,多到290−299枚。
(二)计量资料的整理计量资料不能按计数资料的分组方法进行整理,在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。
下面以126头基础母羊的体重资料为例,说明其整理的方法及步骤。
【例2.1】将126头基础母羊的体重资料(见表2-5)整理成次数分布表。
1、求全距全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即
R=Max(x)-Min(x)
表2-5中,基础母羊的最大体重为65.0kg,最小体重为37.0kg,因此
R=65.0-37.0=28.0kg。
2、确定组数组数的多少视样本含量及资料的变动围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。
组数要适当,不宜过多,亦不宜过少。
分组越多所求得的统计量越精确,但增大了运算量;
若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。
一般组数的确定,可参考表2-6。
表2-5126头基础母羊的体重资料
单位:
kg
53.050.051.057.056.051.048.046.062.051.061.056.062.058.046.5
48.046.050.054.556.040.053.051.057.054.059.052.047.057.059.054.050.052.054.062.550.050.053.051.054.056.050.052.050.052.043.053.048.050.060.058.052.064.050.047.037.052.046.045.042.053.058.047.050.050.045.055.062.051.050.043.053.042.056.054.545.056.054.065.061.047.052.049.049.051.045.052.054.048.057.045.053.054.057.054.054.045.044.052.050.052.052.055.050.054.043.057.056.054.049.055.050.048.046.056.045.045.051.046.049.048.549.055.052.058.054.5
表2-6样本含量与组数
样本含量(n)
组数
10—100
7—10
100—200
9—12
200—500
12—17
500以上
17—30
本例中,n=126,根据表2-6,初步确定组数为10组。
3、确定组距每组最大值与最小值之差称为组距,记为i。
分组时要求各组的组距相等。
组距的大小由全距与组数确定,计算公式为:
组距(i)=全距/组数
本例i=28.0/10≈3.0。
4、确定组限及组中值各组的最大值与最小值称为组限。
最小值称为下限,最大值称为上限。
每一组的中点值称为组中值,它是该组的代表值。
组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距
由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。
组距确定后,首先要选定第一组的组中值。
在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近于或等于资料中的最小值为好。
第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。
注意,最末一组的上限应大于资料中的最大值。
表2-5中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以
第一组的下限=37.5-(1/2)×
3.0=36.0;
第一组的上限也就是第二组的下限为36.0+3.0=39.0;
第二组的上限也就是第三组的下限为39.0+3.0=42.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止,于是可分组为:
36.0−39.0,39.0−42.0,……。
为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。
通常将上限略去不写。
如第一组记为36.0−,第二组记为39.0−,……。
5、归组划线计数,作次数分布表分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。
如表2-5中,第一个观察值53.0,应归入表2-7中第六组,组限为51.0−54.0;
第二个数50.0,应归入第五组,组限为48.0−51.0;
依次将126个观察值都进行归组划线计数,制成次数分布表,见表2-7。
表2-7126头基础母羊的体重的次数分布表
组别
组中值
36.0−
37.5
39.0−
40.5
42.0−
43.5
╫╫│
6
45.0−
46.5
╫╫╫╫╫╫║│
18
48.0−
49.5
╫╫╫╫╫╫╫╫│
26
51.0−
52.5
╫╫╫╫╫╫╫╫║
27
54.0−
55.5
57.0−
58.5
╫╫╫╫║
12
60.0−
61.5
╫╫║
7
63.0−
64.5
126
次数分布表不仅便于观察资料的规律性,而且可根据它绘成次数分布图及计算平均数、标准差等统计量。
从表2-7可以看出126头基础母羊体重资料分布的一般趋势:
体重的变异围在37.0−65.0kg,大部分母羊的体重在45.0−60.0kg之间。
在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。
在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;
反之则少。
(三)质量性状资料、半定量(等级)资料的整理对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。
例如,研究山羊的角遗传时,用纯种的有角羊与无角羊交配,杂种一代全为无角羊,观察F2代山羊共120只,有角无角的分离情况列于表2-8。
表2-8F2代山羊的有角无角分离情况
角
次数(f)
无角
87
72.50
有角
33
27.50
120
又如,整理仔猪死亡情况资料可根据死亡原因将仔猪分组,并统计次数,计算出频率即构成比,见表2-9。
表2-9仔猪死亡情况
死亡原因
死亡数
冻死
19.23
发育不良
25.46
肺炎
13
16.67
白痢
12.82
寄生虫
25.64
78
第三节常用统计表与统计图
统计表是用表格形式来表示数量关系;
统计图是用几何图形来表示数量关系。
用统计表与统计图,可以把研究对象的特征、部构成、相互关系等简明、形象地表达出来,便于比较分析。
一、统计表
(一)统计表的结构和要求统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:
表号标题
总横标目(或空白)
纵标目
横标目
数字资料
编制统计表的总原则:
结构简单,层次分明,容安排合理,重点突出,数据准确,便于理解和比较分析。
具体要求如下:
1、标题标题要简明扼要、准确地说明表的容,有时须注明时间、地点。
2、标目标目分横标目和纵标目两项。
横标目列在表的左侧,用以表示被说明事物的主要标志;
纵标目列在表的上端,说明横标目各统计指标容,并注明计算单位,如%、kg、cm等等。
3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。
4、线条表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。
(二)统计表的种类统计表可根据纵、横标目是否有分组分为简单表和复合表两类。
1、简单表由一组横标目和一组纵标目组成,纵横标目都未分组。
此类表适于简单资料的统计,如表2-10。
表2-10某品种鸡杂种二代冠形分离情况
冠形
玫瑰冠
106
74.13
单冠
37
25.87
143
2、复合表由两组或两组以上的横标目与纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。
此类表适于复杂资料的统计,如表2-11。
表2-11几种动物性食品的营养成分
品别
百分比(%)
蛋白质
脂肪
糖类
无机盐
水分
其它
牛奶
3.3
4.0
5.0
0.7
87.0
−−
牛肉
19.2
9.2
1.0
62.1
8.5
鸡蛋
11.9
9.3
1.2
0.9
65.5
11.2
咸带鱼
15.5
3.7
1.8
10.0
29.0
40.0
二、统计图
常用的统计图有长条图(barchart)、园图(piechart)、线图(linearchart)、直方图(histogram)和折线图(broken-linechart)等。
图形的选择取决于资料的性质,一般情况下,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园图。
(一)统计图绘制的基本要求
1、标题简明扼要,列于图的下方。
2、纵、横两轴应有刻度,注明单位。
3、横轴由左至右、纵轴由下而上,数值由小到大;
图形长宽比例约5:
4或6:
5。
4、图中需用不同颜色或线条代表不同事物时,应有图例说明。
(二)常用统计图及其绘制方法
1、长条图它用等宽长条的长短或高低表示按某一研究指标划分属性种类或等级的次数或频率分布。
如表示奶牛几种疾病的发病率;
几种家畜对某一寄生虫感染的情况;
不同公羊油汗色泽的次数分布情况等。
如果只涉及一项指标,则采用单式长条图;
如果涉及两个或两个以上的指标,则采用复式长条图。
在绘制长条图时,应注意以下几点:
(1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位。
(2)横轴是长条图的共同基线,应标明各长条的容。
长条的宽度要相等,间隔相同。
间隔的宽度可与长条宽度相同或者是其一半。
(3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。
例如,根据表2-10绘制的长条图是单式的,见图2-1。
根据表2-11绘制的长条图是复式
的,见图2-2。
2、园图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。
所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。
把园图的全面积看成100%,按各类别、等级的构成比将园面积分成若干分,以扇形面积的大小表分别表示各类别、等级的比例。
绘制园图时,应注意以下三点:
(1)圆图每3.6°
园心角所对应的扇形面积为1%。
(2)圆图上各部分按资料顺序或大小顺序,以时钟9时或12时为起点,顺时针方向排列。
(3)圆图中各部分用线条分开,注明简要文字及百分比。
例如根据表2-11中的数据用圆图绘出四种动物性食品的营养成分,见图2-3。
3、线图用来表示事物或现象随时间而变化发展的情况。
线图有单式和复式两种。
(1)单式线图表示某一事物或现象的动态。
例如,某猪场长白猪从出生到6月龄出栏平均体重的变化如表2-12所示,根据该资料可以绘制成单式线图,以表示该猪场长白猪体重随月龄变化的情况,见图2-4。
表2-12长白猪体重的变化(出生——6月龄)
月龄
出生
5
体重
2.0
13.5
27.5
43.0
61.2
83.8
118.5
(2)复式线图在同一图上表示两种或两种以上事物或现象的动态。
这时可用实线“−−”,断线“------”,点线“·
·
”,横点线“-•-•-•-”等来标志区别。
例如,长白猪、大约克、大白猪三个品种从出生到6月龄出栏平均体重的变化如表2-13所示,根据该资料绘制的复式线图,见图2-5。
表2-13三个品种猪体重的变化(出生——6月龄)
长白猪
大约克
12.0
24.5
38.0
53.6
72.3
104.5
大白猪
1.6
21.0
32.0
45.0
60.5
85.7
4、直方图(柱形图、矩形图)对计量资料,可根据次数分布表作出直方图以表示资料的分布情况。
其作法是:
在横轴上标记组限,纵轴标记次数(f),在各组上作出其高等于次数的矩形,即得次数分布直方图。
例如根据表2-7绘制的次数分布直方图,见图2-6。
5、折线图对于计量资料,还可根据次数分布表作出次数分布折线图。
在横轴上标记组中值,纵轴上标记次数,以各组组中值为横坐标,次数为纵坐标描点,用线段依次连接各点,即可得次数分布折线图。
例如根据表2-7绘制的次数分布折线图,见图2-7。
习题
1、资料可以分为哪几类?
它们有何区别与联系?
2、为什么要对资料进行整理?
对于计量资料,整理的基本步骤怎样?
3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?
4、统计表与统计图有何用途?
常用统计图有哪些?
常用统计表有哪些?
列统计表、绘统计图时,应注意什么?
5、下表为100头某品种猪的血红蛋白含量(单位:
g/100ml)资料,试将其整理成次数分布表,并绘制直方图和折线图。
13.413.814.414.714.814.413.913.013.012.812.512.312.111.811.010.111.110.111.612.012.012.712.613.413.513.514.015.015.114.113.513.513.212.712.816.312.111.711.210.510.511.311.812.212.412.812.813.313.614.114.515.215.314.614.213.713.412.912.912.412.311.911.110.710.811.411.512.212.112.89.512.312.512.713.013.113.914.214.912.413.112.512.712.012.411.611.510.911.111.612.613.213.814.114.715.615.714.714.013.9
(提示:
第一组下限取为9.1,组距i=0.7)
6、测得某肉品的化学成分的百分比如下(单位:
%),请绘制成圆图。
水分
脂肪
其它
62.0
15.3
17.2
7、2001年调查省5个县奶牛的增长情况(与2000年相比)得如下资料(单位:
%),请绘成长条图。
双流县
名山县
宣汉县
青川县
泸定县
增长率(%)
22.6
13.8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 资料 整理