第六章 抽样调查(梁应).pptx
- 文档编号:14141940
- 上传时间:2023-06-21
- 格式:PPTX
- 页数:92
- 大小:607.51KB
第六章 抽样调查(梁应).pptx
《第六章 抽样调查(梁应).pptx》由会员分享,可在线阅读,更多相关《第六章 抽样调查(梁应).pptx(92页珍藏版)》请在冰点文库上搜索。
第六章抽样调查第一节抽样调查的意义一、抽样调查的概念一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):
按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
二、抽样调查的特点
(一)只抽取总体中的一部分单位进行调查
(二)用一部分单位的指标数值去推断总体的指标数值(三)抽选部分单位时要遵循随机原则(四)抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制三、抽样调查的适用范围抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。
1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;2.虽可进行全面调查观察,但比较困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。
一般适用于以下范围:
第二节抽样调查的基本概念及理论依据一、全及总体和抽样总体(总体和样本)全及总体:
所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:
抽取出来调查观察的单位。
抽样总体的单位数用n表示。
n30大样本n30小样本二、全及指标和抽样指标(总体指标和样本指标)全及指标:
全及总体的那些指标。
抽样指标:
抽样总体的那些指标。
xXpP所所谓谓,就就是是用用抽抽样样指指标标来来推推断断全全及及指指标标。
是是用用抽抽样样平平均均数数推推断断全全及及平平均均数数,从从而而推推断断总总体体标标志志总总量量是是用用抽抽样样成成数数推推断断全全及及成成数数,从从而而推推断断总总推推断断一一体体二二单单位位总总量量抽样框即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。
样本个数指从总体中可能抽取的样本的数量。
样本容量指一个样本所包括的单位数。
22ssssss在在抽抽样样调调查查中中应应用用的的总总体体指指标标和和样样本本指指标标还还有有:
方方差差:
总总体体方方差差、样样本本方方差差标标准准差差:
总总体体标标准准差差、样样本本标标准准差差三、抽样方法和样本可能数目根据取样的方式不同,有重复抽样和不重复抽样以上每一种组织方式又有不同的抽取样本方法(机械抽样和整群抽样没有重复抽样):
重复抽样:
又称有放回抽样。
不重复抽样:
又称不放回抽样。
例例111500050005000LL,111500049994998LL,1.如果是重复抽样:
例根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽样两种。
1
(2)nnNNnDC+-+-=考考虑虑顺顺序序的的重重复复抽抽样样:
不不虑虑顺顺序序的的重重复复抽抽样样:
样样本本种种数数种种考考5
(1)()50312,500,000nnNBN=2.如果是不重复抽样:
例例550!
(1)
(1)
(1)()!
5049484746254,251,200()nNNANNNnNnA=-+=-+=-=创创=创创L虑虑顺顺序序的的不不重重复复抽抽样样:
种种考考555050!
(2)!
()!
254,251,2002,118,760()5!
54321nNNCnNnAC=-=创创创创考考虑虑顺顺序序的的不不重重复复抽抽样样:
种种不不四、抽样调查的理论依据1、大数定律2、中心极限定律第三节抽样平均误差一、抽样误差的概念及其影响程度在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。
铑铑登登记记误误差差系系统统性性误误差差统统计计误误差差代代表表性性误误差差实实际际误误差差随随机机误误差差抽抽样样平平均均误误差差抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。
xXpP-抽抽样样误误差差就就是是指指样样本本指指标标和和总总体体指指标标之之间间数数量量上上的的差差别别,即即、。
二、抽样误差的影响因素:
1.全及总体标志变异程度。
正比关系2.抽样单位数目的多少。
反比关系3.不同的抽样方式。
4.不同的抽样组织形式。
抽样误差的作用:
1.在于说明样本指标的代表性大小。
误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。
2.说明样本指标和总体指标相差的一般范围。
三、抽样平均误差抽样平均误差实际上是样本指标的标准差。
通常用表示。
在N中抽出n样本,从排列组合中可以有各种各样的样本组:
例四、抽样平均误差的计算21020304050X30()525()=五户家庭三月份购买某商品的支出:
元,元,元,元,元元现从五户中抽取二户作调查,如果为重复抽样考虑顺序种排列组合如下:
101010-20400102015-15225103020-10100104025-52510503000201015-15225202020-10100203025-52520403000205035525301020-10100302025-5253030300030403552530504010100401025-52540203000403035525404040101004050451522550103000502035525503040101005040451522550505020400合计-2500接左:
x样样本本平平均均数数xX-误误差差()2xX-抽抽取取样样本本x样样本本平平均均数数xX-误误差差()2xX-抽抽取取样样本本)()(10252500)()(2本配合为样总数元抽平均差样误nnXxx以上资料编成次数分配表如下:
样本数f(即次数分配)101-20152-15203-10254-530503545403104521550120合计25-xxX-2(xX)ffmm-=抽样误差是所有可能出现的样本指标的标准差。
它是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。
抽取样本样本平均数离差102015-15225103020-10100104025-52510503000203025-525204030002050355253040355253050401010040504515225合计-750上例五户中抽取二户调查,如采取不考虑顺序的不重复抽样方法,则:
255410()X30()21C=Q种种元元xxX-()2xX-)(66.810750)(元抽平均差样误n)X-x(2x五、纯随机抽样的抽样平均误差
(一)平均数的抽样平均误差1.重复抽样或或xx2nnssm=m=ssm=m=取得的途径有:
1.用过去全面调查或抽样调查的资料,若同时有n个的资料,应选用数值较大的那个;2.用样本标准差S代替全及标准差;3.在大规模调查前,先搞个小规模的试验性的调查来确定S,代替;4.用估计的方法。
某灯泡厂从一天所生产的产品某灯泡厂从一天所生产的产品10,00010,000个中抽个中抽取取100100个检查其寿命,得平均寿命为个检查其寿命,得平均寿命为20002000小小时时(一般为重复抽样一般为重复抽样),根据以往资料:
,根据以往资料:
=20=20小时,小时,根据以往资料,产品质量不太稳定,若根据以往资料,产品质量不太稳定,若=200=200小时,小时,例x2202()100小时m=)(20小时于是:
2.不重复抽样:
2xNnnN1s-s-m=m=-2xNnn
(1)nNssm=-m=-但但实实际际中中,往往往往很很大大,很很小小,故故改改用用下下列列公公式式:
QQx400100
(1)1.99()10010000m=-=m=-=上上例例中中,若若为为不不重重复复抽抽样样,则则:
小小时时
(二)成数的抽样平均误差已证明得:
成数的方差为p(1-p)ppp(1p)np(1p)n
(1)nN-m=m=-m=-m=-在在重重复复抽抽样样情情况况下下:
在在不不重重复复抽抽样样情情况况下下:
某玻璃器皿厂某日生产某玻璃器皿厂某日生产1500015000只印花玻璃杯,只印花玻璃杯,现按重复抽样方式从中抽取现按重复抽样方式从中抽取150150只进行质量检验,只进行质量检验,结果有结果有147147只合格,其余只合格,其余33只为不合格品,试求这只为不合格品,试求这批印花玻璃杯合格率批印花玻璃杯合格率(成数成数)的抽样平均误差。
的抽样平均误差。
例%1374.1)150001501(150)98.01(98.0)1()1(%14.1150)98.01(98.0)1(%9815014715015000NnnppnpppnNpp若按不重复抽样方式:
例:
例:
估计某乡粮食亩产量,从5000亩中随机抽取100亩,计算得出样本平均亩产量为450公斤,方差780公斤,则粮食平均亩产量的平均抽样误差是多少?
重复抽样不重复抽样2.8公斤2.77公斤例例估计对某项措施的支持率,对职工进行5的随机抽样,调查60名员工,有45人表示支持,则支持率的平均抽样误差是多少?
重复抽样:
不重复抽样:
5.595.45六、类型抽样的抽样平均误差在在重重复复抽抽样样情情况况下下:
为为各各组组的的总总体体单单位位数数为为全全及及总总体体单单位位数数,即即为为分分类类数数目目平平均均组组内内方方差差2ix2ii2ikii1inNNNNNNk()=ssm=m=sss=s=2ixn
(1)nNssm=-m=-在在不不重重复复抽抽样样情情况况下下:
重重复复抽抽样样在在成成数数情情况况下下:
pp(1p)n-m=m=不不重重复复抽抽样样:
pp(1p)n
(1)nN-m=-m=-某农场种小麦某农场种小麦1200012000公顷,其中平原公顷,其中平原36003600公顷,丘陵公顷,丘陵60006000公顷,山地公顷,山地24002400公顷,现用类型抽样法调查公顷,现用类型抽样法调查12001200公顷公顷,以各种麦田占全农场面积的比重分配抽样面积数量。
,以各种麦田占全农场面积的比重分配抽样面积数量。
麦田类型抽样的平均误差计算表麦田类型抽样的平均误差计算表类类型型全场播全场播种面积种面积(公顷公顷)抽样调抽样调查面积查面积(公(公顷)顷)单位面积单位面积产量不均产量不均匀程度指匀程度指标标(千千克克)符符号号Ninii丘陵地区丘陵地区6000600750337500000平原地区平原地区3600360840254016000山山地地24002401000240000000合合计计120001200-831516000例iin222222iiiiiiiixn831516000692930()n1200NNn
(1)nN6929301200
(1)519.697522.8()120012000ss=s轾s=犏臌sm=-=-=千克或千克高产麦田比重的平均误差计算表高产麦田比重的平均误差计算表类别类别高产田高产田比重比重(%)非高产田非高产田比重比重(%)麦田不均匀麦田不均匀程度指标程度指标(%)抽样调查抽样调查面积面积(公公顷顷)pi(1-pi)ni符号符号pi1-pipi(1-pi)ni丘陵丘陵80201660096.0平原平原9010936032.4山地山地60402424057.6合计合计-1200186iiiipp(1p)n186P(1P)15.5%n1200p(1p)n0.1551200
(1)
(1)1.078%nN120012000-=-m=-=-=七、机械抽样(等距抽样)的抽样平均误差1.若按无关标志排队公式用以上纯随机抽样的公式,一般采用不重复抽样公式:
xp2n
(1)nNp(1p)n
(1)nNssm=-m=-m=-m=-为为简简便便起起见见,也也可可采采用用重重复复抽抽样样公公式式。
2.若按有关标志排队公式用类型抽样的公式:
2xpnp(1p)nssm=m=-m=m=八、整群抽样的抽样平均误差整群抽样的抽样平均误差受三个因素影响:
(1)抽出的群数(r)多少(反比关系)
(2)群间方差()(正比关系)2dd计算方法如下:
为为全全及及总总体体各各群群的的平平均均数数为为全全及及平平均均数数或或:
为为抽抽样样各各群群的的平平均均数数为为抽抽样样各各群群的的总总平平均均数数为为全全及及总总体体各各群群的的成成数数为为全全及及总总体体的的成成数数22x22x22p2priii1riii1riii1(xx)xrx(xx)rxrx(pp)prp=dd=dd=dddd-=-骣骣=琪琪琪琪桫桫-=或或:
为为抽抽样样各各群群的的成成数数为为抽抽样样各各群群的的总总成成数数2riii1(pp)rprp=-骣骣=琪琪桫桫(3)抽样方法2x2pxpRrrR
(1)R1Rr
(1)rRr
(1)rRdddd-m=-m=-m=-m=-整整群群抽抽样样都都采采用用不不重重复复抽抽样样。
所所以以在在计计算算抽抽样样误误差差时时要要使使用用修修正正系系数数,当当的的数数目目较较大大时时,可可用用来来代代替替。
整整群群抽抽样样的的抽抽样样平平均均误误差差计计算算公公式式为为:
假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟产品进行检验,用以检查产品的合格率,检查结果如下:
合格率群数rpipir80%20.801.6-0.09960.0198485%40.853.4-0.04960.0098490%120.9010.80.0004(太小不计)95%30.952.850.05040.0076298%30.982.940.08040.01939合计24-21.59-0.05669例ipp-2i(pp)r-22p2prii1ppr21.590.8996r24(pp)r0.056690.002362r24r0.00236224
(1)
(1)0.0095(0.95%)rR24288p=d=-d=m=-=-=Q样本群平均合格率群间方差或以上抽样平均误差的公式归纳如下:
()()()()2px2222x2pnnp1-pn
(1)1N
(2)p1-pp1-p(3)p1-pm=m=m=m=sssssssdsddd骣骣琪琪桫桫揪揪揪揪揪揪揪揪,最最基基本本的的是是:
若若为为:
乘乘以以若若不不重重复复抽抽样样类类型型抽抽样样整整为为:
若若为为群群抽抽样样:
nNRr揪揪揪揪第四节全及指标的推断一、点估计和区间估计
(一)点估计例xXpP是是由由样样本本指指标标直直接接代代替替全全及及指指标标,不不考考虑虑任任何何抽抽样样误误差差因因素素。
即即用用直直接接代代表表,用用直直接接代代表表。
就就100x1002p98%X1002P98%=在在全全部部产产品品中中,抽抽取取件件进进行行仔仔细细检检查查,得得到到平平均均重重量量克克,合合格格率率,我我们们直直接接推推断断全全部部产产品品的的平平均均重重量量克克,合合格格率率。
(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。
由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。
就是说,推断全及指标在这个范围内只有一定的把握程度。
用数学的语言讲,就是有一定的概率。
根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:
抽样极限误差=t,(t为概率度)当当F(t)=68.27%F(t)=68.27%时,抽样极限误差等于抽样平均误差的时,抽样极限误差等于抽样平均误差的11倍倍(t=1);(t=1);例当当F(t)=95.45%F(t)=95.45%时,抽样极限误差等于抽样平均误差的时,抽样极限误差等于抽样平均误差的22倍倍(t=2);(t=2);当当F(t)=99.73%F(t)=99.73%时,抽样极限误差等于抽样平均误差的时,抽样极限误差等于抽样平均误差的33倍倍(t=3);(t=3);可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
二、全及平均数和全及成数的推断xxppF(t)xXxpPp()()t-D+D-D+D-D+D-D+D=眒=眒在在概概率率的的保保证证下下:
即即:
全全及及平平均均数数成成数数抽抽样样平平均均数数成成数数某农场进行小麦产量的抽样调查,该农场小麦播种面积为某农场进行小麦产量的抽样调查,该农场小麦播种面积为1000010000亩亩,采用不重复的简单随机抽样从中选,采用不重复的简单随机抽样从中选100100亩作为样本,进行实割实测,亩作为样本,进行实割实测,得到样本的平均亩产量为得到样本的平均亩产量为400400千克,样本标准差为千克,样本标准差为1212千克。
千克。
则:
则:
例1)403.57(100003)99.73%(t(3)402.38(100002)95.45%(t千克量的可能范:
亩产围为小的平均亩麦保,证该农场若以率概千克量的可能范:
亩产围为小的平均亩麦保,证该农场若以率概千克43.39619.1340062.39719.12400)2()(19.1)100001001(10012)1()1(22XxXNnnxx某机械厂日产某种产品某机械厂日产某种产品80008000件,现采用纯随机不重复抽样方式件,现采用纯随机不重复抽样方式(按按重复抽样公式计算重复抽样公式计算),从中抽取,从中抽取400400件进行观察,其中有件进行观察,其中有380380件为一级件为一级品,试以概率品,试以概率95.45%95.45%的可靠程度推断全部产品的一级品率及一级品数量的可靠程度推断全部产品的一级品率及一级品数量的范围。
的范围。
则:
抽样一级品率:
则:
抽样一级品率:
例2pp380p100%95%400P(1P)95%(195%)1.09%n40095.45%Pp95%21.09%92.82%97.18%=-m=盌贝=在概率的保证下,全及一级品率:
三、全及总体总量指标的推断
(一)直接推断法抽样平均数(成数)总体单位数=总体标志总量1.如果采用点估计方法:
上例1中:
40010000=400(万千克)如果用区间估计方法:
上例1中该农场小麦总产量的范围为:
t=2:
(397.62402.38)10000=397.62402.38(万千克)t=3:
(396.43403.57)10000=396.43403.57(万千克)2.上例2中,全部一级品数量的范围为:
(92.82%97.18%)8000=7425.67774.4(件)
(二)修正系数法就是用抽样所得的调查结果同有关资料对比的系数来修正全面统计资料时采用的一种方法。
某村某村60006000农户,农户,20012001年年末统计养猪头数,从下往上报的年年末统计养猪头数,从下往上报的是是90009000头,现抽头,现抽1010(600(600户户)的农户再复查一下,发现有漏的农户再复查一下,发现有漏报,也有重报。
按报,也有重报。
按600600户,原来数字是户,原来数字是890890头,实际复查为头,实际复查为935935头,故总的来说,是少报。
头,故总的来说,是少报。
例1)(9455%)06.51(90006000%06.5%06.589045)(45890935头农户养猪头数,即:
的系数来修正可用差错率头某市房地局,年报工资总额某市房地局,年报工资总额3218.13218.1万元。
万元。
现抽查现抽查1414个单位:
年报:
个单位:
年报:
415.03415.03万元万元多报:
多报:
0.440.44万元万元少报:
少报:
1.471.47万元万元抵冲后抵冲后1.47-0.44=1.03(1.47-0.44=1.03(万元万元)例2)(09.3226%)248.01(1.3218%248.003.41503.1万元年报工资总额正工资总额,则:
根据这一系数,再来修差错率第五节抽样调查的组织形式通常有以下五种组织形式:
一、简单随机抽样(纯随机抽样)即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。
随机抽选可有各种不同的具体做法,如:
1.直接抽选法;2.抽签法;3.随机数码表法;二、类型抽样(分类抽样)先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,组成一个总的样本。
类型的划分:
一是必须有清楚的划类界限;二是必须知道各类中的单位数目和比例;三是分类型的数目不宜太多。
类型抽样的好处是:
样本代表性高、抽样误差小、抽样调查成本较低。
如果抽样误差的要求相同的话则抽样数目可以减少。
两种类型:
1.等比例类型抽样(类型比例抽样);2.不等比例类型抽样(类型适宜抽样)。
三、机械抽样(等距抽样)先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。
排列次序用的标志有两种:
1.选择标志与抽样调查所研究内容无关,称无关标志排队。
2.选择标志与抽样调查所研究的内容有关,称有关标志排队。
研究工人的平均收入水平时,按工号排队。
研究工人的平均收入水平时,按工号排队。
例研究工人的生活水平,按工人月工资额高研究工人的生活水平,按工人月工资额高低排队。
低排队。
例机械抽样按样本单位抽选的方法不同,可分为三种:
1.随机起点等距抽样kkkk+a2k+a(n-1)k+aak(k为抽取间隔)示意图:
2.半距起点等距抽样kkkk(k为抽取间隔)示意图:
2k2kk22kk2)1(kkn3.对称等距抽样示意图:
kkk2k-a2k+a4k-a4k+aak(k为抽取间隔)机械抽样的好处:
1.可以使抽样过程大大简化,减轻抽样的工作量;2.如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。
机械抽样,实际上是一种特殊的类型抽样。
因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。
四、整群抽样整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。
整群抽样的好处:
组织工作比较简单方便,适用于一些特殊的研究对象。
其不足之处是,一般比其它抽样方式的抽样误差大。
五、多阶段抽样即把抽样本单位的过程分为两个或几个阶段来进行。
(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲:
先抽大单位(可以用类型抽样或机械抽样),再在大单位中抽小单位(可用整群抽样或简单随机抽样),小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。
第六节必要抽样数目的确定一、影响必要抽样数目的因素21.P(1P)()-体体各各单单位位的的标标志志变变异异程程度度,即即或或的的大大小小正正比比总总2.()DD许许误误差差的的大大小小反反比比允允3.t()率率度度的的数数值值正正比比概概4.样样方方式式和和组组织织形形式式抽抽
(一)简单随机抽样二、必要抽样数目的计算公式:
重重复复抽抽样样222tnss=DD22tP(1P)n-=DD不不重重复复抽抽样样:
22222NtnNtss=D+sD+s222NP(1P)tnNtP(1P)-=D+-D+-
(二)类型抽样22;P(1-P)P(1-P)s畇s畇22222tntP(1P)nss=DD-=DD:
重重复复抽抽样样22222222NtnNtNtP(1P)nNtP(1P)ss=D+sD+s-=D+-D+-不不重重样样:
复复抽抽(三)整群抽样2222ppxxnr;NR;s甦s甦s甦s甦22x222xx22p222ppRtrRtRtrRtdd=D+dD+ddd=D+dD+d不不:
重重复复抽抽样样等距抽样的抽样数目,在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 抽样调查梁应 第六 抽样调查