第三章 统计资料的整理.docx
- 文档编号:17411105
- 上传时间:2023-07-25
- 格式:DOCX
- 页数:19
- 大小:78.48KB
第三章 统计资料的整理.docx
《第三章 统计资料的整理.docx》由会员分享,可在线阅读,更多相关《第三章 统计资料的整理.docx(19页珍藏版)》请在冰点文库上搜索。
第三章统计资料的整理
第3章统计资料的整理
内容提要:
通过本章的学习,要求明确统计资料整理的概念,了解统计整理的步骤;能够对不同的社会经济现象进行适当的统计分组;运用分配数列对原始数据进行系统整理;掌握统计表的具体编配方法。
第一节统计整理的意义和内容
一、统计整理的意义
统计调查之后,就是统计整理。
我们在统计调查阶段搜集得到大量的原始资料,这些资料是分散、零乱、不系统、不规范的,只能反映统计总体每个具体单位的特征,不能反映总体的综合数量特征。
统计认识客观现象的目的不在于认识个体的状况,而在于通过个体来认识总体。
因此,我们需要将调查资料进一步整理成系统化、条理化、规范化、科学化,得出能反映客观现象总体特征的综合资料。
1、什么是统计整理?
所谓统计整理,简单说是对调查资料进行加工处理的过程。
完整说就是根据统计研究的目的和任务,将统计调查阶段所收集到的分散的、零乱的、不系统、不规范的大量原始资料,用科学的方法进行加工处理,把它们转化为总体资料,使之系统化、条理化、科学化、规范化,成为能够反映事物总体特征的综合资料的过程。
它一般包括狭义的统计整理和广义的统计整理。
狭义的统计整理也称为初级整理,仅指对统计调查所取得的原始统计资料的整理;而广义的统计整理也称为次级整理除了对原始调查资料的整理外,还包括对某些已经加工过的综合(或历史)资料的整理。
2、统计整理的作用
统计整理是统计工作的第三个阶段,是从统计调查到统计分析的中间环节,是统计调查工作的继续和统计分析的前提。
统计调查所取得的原始资料,只有通过统计整理之后,才可能得出对总体数量特征的认识。
统计活动既是一种从个体的实际表现到总体的综合表现的认识过程。
同时也是从对现象的感性认识到对现象的规律性认识的过程。
统计调查虽然已经收集到大量的原始资料,但从这些反映个体的零散的资料只能得出不全面的感性认识,只有通过统计整理,才能提供全面系统的资料,使我们对现象的感性认识深化到理性认识。
所以,统计整理是统计认识过程中的一个重要阶段,是统计分析的基础。
二、统计整理的步骤
统计整理是一项细致而周密的工作,必须有组织、有计划的进行。
统计整理由于手工整理、电子计算机整理的技术条件不同,具体步骤有差异,但其基本步骤是一致的,主要有:
1、设计统计整理方案
统计整理方案包括两个方面的内容:
(1)按照统计设计确定的统计指标和统计指标体系以及我们将要介绍的统计分组体系具体地设计到统计整理表(过录表)和统计综合表(提供表)中,并详细规定整理、综合的方法。
(2)根据统计调查所取得的原始资料的多少和统计整理表、综合表的要求,仔细计算工作量,定出具体可行的工作计划如人力的组织培训,技术设备和财力的保证,每个工作环节的责任及其相互衔接的办法等。
2、对原始资料进行审核
在统计调查过程中,往往会因种种原因出现一些差错。
要保证统计资料的质量,必须在统计整理之前对调查资料进行审核。
审核的内容主要是资料的完整性和准确性。
(1)审核资料的完整性。
主要是审核应该调查的单位是否有遗漏,指标数值填写是否齐全;应该收到的调查表是否按规定已经收齐等。
(2)审核资料的准确性。
主要包括数据的计算范围、计算方法、计算单位等是否符合规定。
使用电子计算机汇总时,因有些标志是手工编码的,对代码的审核也很重要。
对查出来的问题,根据统计整理方案工作计划中规定的办法进行处理和更正。
3、数据处理
4、编制统计表
第二节统计分组
一、统计分组的概念及作用
1、统计分组的概念
统计分组既是统计整理、同时也是统计分析的基本方法之一。
它是根据统计研究的需要,按照某一或某几个标志,将总体的所有单位划分成若干个组成部分的一种统计方法。
例如,人口普查中的“全国人口”的含义是指具有中华人民共和国国籍并在中华人民共和国境内居住的人,他们都是人口普查的对象,构成人口普查总体。
但是,作为总体单位的每一个人而言,在许多方面诸如年龄、性别、民族、文化程度、身高、体重、居住地等方面却不尽相同。
统计除了认识总体的综合特征外,还必须进一步揭示总体各组成部分的差异。
统计分组包括两层含义:
(1)统计分组的第一层含义是“分”,就是把性质上有差异的单位分开。
(2)统计分组的第二层含义是“合”。
就是把性质上差异不明显的单位归并在一起。
例如对上述人口普查结果进行分析时,只有一个“人口总数”指标是不够的。
若分析的目的是人口的民族构成,就得按“民族”这个标志,将人口分成汉族、藏族、回族、蒙古族、维吾尔族等56个组,每个组内都是同一民族的人口;若研究的目的是人口的性别构成,就要分成男性和女性两组;若研究的目的是人口的文化程度,则要分成文盲、小学、初中、高中(中专)、大学专科、大学本科、硕士研究生、博士研究生以及博士后等组。
另外,还可以按几个标志进行多重分组;对某一标志既可以按品质标志分组,也可以按数量标志分组等。
经过分组的资料,组内有共性,组间有差异。
对分组资料的这两重属性,是对分组标志而言的,而分组标志以外的其他标志,则在同一组内也有差异。
例如,人口按性别划分为男性和女性两组,在民族、年龄、身高、体重、文化程度等标志都具有差异,正是这种差异,使我们有进一步研究的必要。
统计分组和统计指标构成统计活动的两个基本要素。
全部统计活动就是在一定的分组体系下,运用统计指标体系进行的。
统计工作从始至终都离不开统计指标和统计分组的应用,从这个意义上讲,我们对统计分组的认识,不能仅把它理解成是统计活动的某一个阶段独有的,而是在统计设计阶段就产生,贯穿于整个统计活动全过程的一种基本的统计研究方法。
二、统计分组的作用
统计分组是统计研究的基本方法之一。
它在统计资料的整理中有着尤为突出的作用。
统计分组的基本作用,就是把大量原始资料加以系统化、条理化、规范化和科学化,把调查对象的种种特征反映出来,以便于研究客观现象总体数量的规律性。
其具体作用主要表现在如下三个方面:
(1)划分总体现象的类型。
客观现象是错综复杂、多种多样的。
按一定标志将其划分成若干类型,在统计分析中有着重要意义。
例如,按企业所有制的性质区分,我国的企业在1978年底党的十一届三中全会的经济体制改革之前,主要有全民所有制和集体所有制两种基本类型,而在经济体制改革至今,已形成以公有制为主体的多种经济成分并存的格局。
经济类型多样化,出现了一些过去少有或者没有的经济类型,如私营企业,中外合资企业以及外商独资经营的企业等。
(2)研究总体内部结构及其特征
反映总体内部构成的统计分组,叫做结构分组。
它是将总体单位按照所研究的某一标志或某几个标志分成若干组,并计算各组单位数占总体单位数的比重,以反映客观现象内部的构成及其特征,并进一步研究总体内部结构的变化及其发展过程。
例如,按三次产业分组以研究国民生产总值中三部分的比重及其变化;在业人口中三部分的比例及其变化。
再如,按性别分组的人口数可以研究人口性别比例的状况及其变化。
(3)研究总体现象之间的依存关系
分析客观现象之间依存关系的统计分组,叫做分组分析。
客观现象是一个复杂的整体。
尽管各种现象之间存在着多种多样的差别,但是它们不是孤立的,而是相互联系、相互制约的。
利用统计分组,可以研究这种现象之间的依存关系,找出影响某一现象发展的主要原因。
三、统计分组的原则和方法
1、统计分组的原则
为保证统计分组的科学性,应遵循下述几个原则:
(1)科学性原则。
统计分组首先应强调的是科学性原则,即统计分组首先要根据统计研究的目的,突出反映客观现象在各个方面存在的差异。
表3.1某地区1997年底各类工业企业及规模构成情况
按所有制性质及规模分组
企业数(个)
比重(%)
全民所有制企业
3204
64.08
大型
512
10.24
中型
708
14.16
小型
1984
39.68
集体所有制企业
1286
25.72
大型
286
5.72
中型
434
8.68
小型
566
11.32
私营企业
152
3.04
大型
24
0.48
中型
48
0.96
小型
80
1.60
中外合资企业
212
4.24
大型
70
1.40
中型
74
1.48
小型
68
1.36
外商独资企业
102
2.04
大型
28
0.56
中型
36
0.72
小型
38
0.76
其他类型企业
44
0.88
大型
6
0.12
中型
10
0.20
小型
28
0.56
合计
5000
100.00
(2)完整性原则。
统计分组要具备完整性,即总体任何一个单位或任何一个原始数据都能归属于某一个组,不能遗漏。
例如,将职工人数进行分组时,如果只分为“全民所有制企业”和“集体所有制企业”两组的话,就是不完备的。
因为“私营企业”、“合资企业”、“外资企业”等不能归入上述两组之中,再说上述所有类型也未必就能把企业类型概括完全,因而必须加上“其他类型企业”这一组,就完备了。
(3)互斥性原则,也称为不相容性原则。
统计分组要求组与组之间具有互斥性,即指的是任何一个总体单位或任何一个原始数据,只能归属于某一个组,而不能归属于两个或两个以上的组。
2、统计分组的步骤和方法
(1)确定统计分组的内容和分组体系。
对统计分组,首先是根据研究的目的和任务确定统计分组的内容,即要设立一些什么样的分组。
如要研究人口的文化构成,就要设计反映文化程度的分组;要研究人口的职业则要设计反映各种职业状况的分组。
其次是根据客观现象的复杂性,设计多种统计分组,形成一个分组体系。
这里的分组体系是指以各种不同标志反映总体特征的一系列相互联系、相互制约的统计分组而形成的整体。
例如,人口统计可以同时按性别、年龄、民族、文化程度等标志进行统计分组,从而形成一个人口统计分组体系。
统计分组体系有平行分组体系和复合分组体系两种:
1)平行分组体系。
这是针对简单分组而言的。
同一总体的几个简单分组按某一规定排列起来就构成一个平行分组体系。
例如,人口总体分别按性别、年龄、民族等标志进行分组,这些简单分组排列起来,就是一个平行分组体系,如图4.1。
①按性别分组
②按民族分组
③按年龄分组
图3.1人口按性别、民族、年龄分组的平行分组体系
图3.2高校学生总体按学科、学制、性别分组的复合分组体系
2)复合分组体系。
这是针对复合分组而言的。
由复合分组形成的分组系列就称为复合分组体系。
例如,对高校学生总体可先按学科分组,在此基础上再按学制、性别等标志进行分组,就形成一个复合分组体系,如图4.2。
(2)选择分组标志。
统计分组的一个重要问题就是如何选择分组标志。
分组标志是进行统计分组的最直接的依据,是进行正确分组的关键。
因此,选择分组标志应遵守下述原则:
1)以有关实质性科学的理论为依据,抓住能反映事物本质特征的标志作为分组标志。
例如,在研究社会主义市场经济的经济关系时,必须抓住所有制性质这个本质特征作为分组标志,才能正确反映我国的社会主义市场经济关系。
2)要具体问题具体分析,根据统计研究的具体目的选择分组标志。
对于同一现象,由于研究目的不同,需要采用不同的分组标志。
例如,要研究国民经济的比例关系时,就需要以生产部门作为分组标志;要研究畜牧业再生产能力时,就需要把各类牲畜的年末存栏数按繁殖能力及公、母等标志进行分组等。
因此,选择分组标志,必须考虑统计研究的目的和需要。
3)要考虑不同时间、地点和具体历史条件,选择分组标志。
例如,研究工业企业的规模,在经济不太发达的地区或历史条件下,可能以劳动力等指标来反映;在经济高度发达地区或历史条件下,可能以固定资产等指标来反映。
(3)划定组间界限。
分组标志选定后,就要根据现象的特点,严格划清组与组之间的界限。
划分组间界限,既要有科学性,又要有适用性和可行性。
例如,在划分什么是工业、什么是农业的时候,要有严格的科学理论根据,如农业是人类劳动通过生物过程从自然界获取产品,而工业是通过物理化学过程获取产品等。
但这又不能绝对化,在过去村办工业数量少、规模小,基本上是手工操作且往往没有固定人员的情况下,将其划归了农副业;而现在乡村工业发展很快,有些企业规模越来越大,技术设备越来越先进,再划归农副业就不能正确反映实际情况,而应划归工业了。
练习思考练习题四、应用能力训练题1
第三节分配数列
一、分配数列的编制及相关概念
1、分配数列的编制
现以对某企业100名职工调查得到的工资资料为例(如表4.3),说明变量数列的编制方法。
表3.2某企业100名职工工资资料
单位:
元
480250440220350350420380360350
350280340320520430500440480460
580470330410420350380470610390
400450390460290510320380410530
440380470570260400470560430600
580450420560520410520390480230
320370550420370290310400300520
360510470430540570460510480340
550510450500470440370420480540
300400530550530200650630540590
现在根据上述资料,说明变量数列的编制方法和步骤。
分以下四步:
(1)排序列。
即将原始资料按数值大小排列,形成表4.4所列示的资料。
表3.3依表3.2的数据整理而成的变量序列资料
200220230250260280290290300300
310320320320330340340350350350
350350360360370370370380380380
380390390390400400400400410410
410420420420420420430430430440
440440440450450450460460460470
470470470470470480480480480480
500500510510510510520520520520
530530530540540540550550550560
560570570580580590600610630650
通过表4.4,我们可以发现该数据的一些特征,将近90%的数据集中在300~600之间,尤有36%的数据集中在400~500之间,说明平均工资水平是在450元上下;另外,我们还可以发现,所有数据是在区间200~650范围内变化,该区间两端点的数值之差,我们称为全距(计为R),即:
(3.1)
式中:
原数列的最大值
原数列的最小值。
在该例中,全距为:
R=650-200=450(元)
说明该数列的变动幅度还是比较大的,即这100名职工的工资差距比较大。
(2)确定组数和组距。
编制变量数列的关键在于将原数列分成多少个组,亦即组数应为多少。
组数一经确定,组距也就随之确定。
确定组数的基本原则是:
1)根据现象的性质和特点确定组数。
2)根据原数据的分布特征及集中趋势确定组数。
3)具体操作上来说,组数既不能太多,也不能太少。
一般来说,组数不应少于6或大于15。
组数和组距是相互制约,成反比关系的。
总体规模一经确定,组数越多,组距就越小;反之,组数越少,则组距就越宽。
在等距数列中,可依据斯塔奇斯(Sturges,1926)公式计算值作为组数的参考依据,即:
k=1+3.322lg(N)(3.2)
式中:
k组数
N总体数据个数(即总体单位数)
组数确定后,组距与组数是反比例变化的,即:
(3.3)
式中:
d组距
在该例中,依(4.2)和(4.3)式可计算得到组数和组距分别为:
k=1+3.322lg(100)≈7.64≈8(组)
d=
=56.25≈57(元)
现在可以发现,为便于分析,对于组数与组距的计算值,我们最好取整数。
(3)确定组限。
组限的确定,一方面要选择能够反映现象的质的分界线的标志值为组限;另一方面要遵循前面所介绍的分组原则。
例如,最小组的下限应不大于或至多等于原始资料中的最小值,最大组的上限应不小于原始资料中的最大值,以保证分组的完备性。
在确定相邻两组的组限时,要保证其互不相容。
具体方法是:
1)确定最小组的下限。
有两种方法:
①将原始资料中的最小变量值确定为最小组的下限。
如表4.4中的200元就可作为最小组的下限。
②将原始资料中的最小变量值确定为最小组的组中值。
关于组中值稍后再作详细说明。
2)确定组限的表示方法。
与组数和组距一样,组限和组中值也最好取整数。
对于相邻两组的组限有两种表示方法:
①变量是连续型的,相邻两组的上下限可以重叠,即同一变量值可以作为相邻两组的上限和下限。
在具体操作上,我们规定把该变量值归入下限所在组。
②变量是离散型的,相邻两组的上下限就用整数断开。
(4)分组计算次数。
计算结果可以用频数或频率表示。
在该例中,我们通过计算得到表4.5。
同样,我们也可以最小变量值200元作为组中值编制类似于表4.5的变量数列。
请同学们自己思考完成。
2、几组概念
(1)组数和组距。
(2)组限和组中值。
(3)下限和上限。
(4)单项分组和组距分组。
(5)等距分组和异距分组。
(6)连续分组和非连续分组。
(7)闭口组和开口组。
(8)频数和频率。
(9)累计频数和累计频率。
(10)向上累计和向下累计。
表3.4某工业企业100名职工按工资额分组
按工资
额分组
(元)
职工人
数(人)
(频数)
占总数
(%)
(频率)
累计频数
(人)
累计频率
(%)
向上
向下
向上
向下
200~257
4
4.0
4
100
4
100
257~314
7
7.0
11
96
11
96
314~371
16
16.0
27
89
27
89
371~428
19
19.0
46
73
46
73
428~485
24
24.0
70
54
70
54
485~542
16
16.0
86
30
86
30
542~599
10
10.0
96
14
96
14
599~656
4
4.0
100
4
100
4
合计
100
100.0
3、次数分布的主要类型
(1)钟形分布
(2)U形分布
(3)J形分布
练习思考练习题四、应用能力训练题234
第四节统计表和统计图
一、统计表的概念和作用
统计表是表示统计资料的一种重要的形式。
把整理汇总得出的统计数据资料,按照一定的结构和顺序,有系统地排列在一定的表格之内,就形成统计表。
因此,简要概括,统计表就是列有统计资料的表格。
统计表的作用,在于可以科学地合理地显示统计资料,使统计资料更能便于人们阅读,为分析研究客观现象之间的关系,如现象的规模、结构、比例、发展速度等提供便利条件。
在实际应用中,统计表是统计资料最广泛的表现形式。
二、统计表的结构
统计表的结构,与前面所讲的调查表基本相同。
如表3、5。
总标题
车间
定额工时
完成百分比(%)
计划
实际
一车间
4000
4400
110
二车间
6000
6300
105
三车间
5000
4500
90
四车间
8000
8640
108
主词栏宾词栏
统计表的结构,从它的外表形式看,是由纵横交叉的一种表格所组成。
它由总标题、横行标题、纵栏标题和指标数值等部分构成。
总标题是统计表的名称,放在统计表的上端。
总标题要尽量简明扼要。
横行标题也称横标目,写在统计表的左方。
纵栏标题也称纵标目,写在统计表的上方。
横标目和纵标目是分别说明横行和纵栏所填列数字资料内容的。
从统计表的内容形式看,包括主词和宾词两个部分。
主词是统计表所要说明的总体、总体的各个组成部分或各个单位的名称。
宾词是用来说明主词的各种指标。
一般情况下,主词列在统计表的左方,即列于横行,宾词列在统计表的上方,即列于纵栏。
但是,这样的排列会使统计表的表式过分狭长或过分宽短时,也可以将主词宾词合并排列或变换位置排列。
如表4.5所列示的情况。
3、统计表的种类
统计表按不同的分类标准,有不同的分类。
(1)、统计表按其用途不同,可以分为调查表、整理表(如表4.5)和分析表(如表4.10)。
调查表指的是在统计调查中用于登记、收集原始资料的表格,表中的数字可以说是未经综合的各个单位的标志值。
整理表是指在统计整理中用于表现整理过程和结果的表格,表中的数字是经过汇总的总量指标,包括总体单位数和一系列标志总量。
整理表也称为汇总表、综合表。
分析表是在统计分析中用于整理所得的统计资料进行统计定量分析的表格。
表中的数字既会有总量指标,又会有在总量指标基础上计算的多种相对指标和平均指标。
(2)、统计表按其所反映的统计资料的内容不同,可以分为空间表和时间表。
空间表即空间数列表,指的是同一时间条件下,不同空间的数列资料,如某年分省、市、自治区的国民生产总值;时间表即时间数列表,指的是同一空间条件下,不同时间的数列资料,如1949年至1997年全国历年的总人口数。
(3)、统计表按其总体分组不同,可以分为简单表、分组表和复合表。
简单表是对总体未经任何分组而按总体单位排列或按时间排列的统计表,如表4.10所列示的情况。
分组表是对总体仅按一个标志进行分组的统计表,如表45所列示的情况。
复合表是对总体按两个或两个以上标志进行层叠分组而形成的统计表,如表4.2所列示的情况。
二、统计图
用图形来表现统计资料有很多。
我们简要介绍最常用的直方图、频数多边形和曲线图。
1、条形图
这是用直方形的宽度和高度来表现统计分组资料的方式。
如用表4.5的分组资料的各组上下限和次数画成直方图便是图4.3。
直方图的宽度表示组距,高度表示各组的次数。
直方图中各个方框内的总面积则表示总次数。
2、面积图
3、曲线图
频数多边形或称折线图。
这是用连续的折线来表现统计分组资料的方式。
如用表4.5的分组资料各组的组中值和次数画成频数多边形便是图4.3中连接的各直方形顶端中点的连线。
次25
数20
15
10
5
变量值
200257314371428485542599656
图3、5依表3.5的分组资料编制的直方图和频数多边形
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三章 统计资料的整理 第三 统计资料 整理