第2章 抽样.pptx
- 文档编号:14120088
- 上传时间:2023-06-20
- 格式:PPTX
- 页数:82
- 大小:682.78KB
第2章 抽样.pptx
《第2章 抽样.pptx》由会员分享,可在线阅读,更多相关《第2章 抽样.pptx(82页珍藏版)》请在冰点文库上搜索。
2.2.2抽样调查1.抽样调查的意义及基本概念一、抽样调查的意义一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):
按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
二、抽样调查的适用范围抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。
1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;2.虽可进行全面调查观察,但比较困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。
一般适用于以下范围:
三、抽样调查的基本概念
(一)全及总体和抽样总体(总体和样本)全及总体:
所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:
抽取出来调查观察的单位。
抽样总体的单位数用n表示。
n30大样本n30小样本
(二)全及指标和抽样指标(总体指标和样本指标)全及指标:
全及总体的那些指标。
抽样指标:
抽样总体的那些指标。
xXpP所所谓谓,就就是是用用抽抽样样指指标标来来推推断断全全及及指指标标。
是是用用抽抽样样平平均均数数推推断断全全及及平平均均数数,从从而而推推断断总总体体标标志志总总量量是是用用抽抽样样成成数数推推断断全全及及成成数数,从从而而推推断断总总推推断断一一体体二二单单位位总总量量抽样框即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。
样本数指从总体中可能抽取的样本的数量。
样本容量指一个样本所包括的单位数。
22ss在在抽抽样样调调查查中中应应用用的的总总体体指指标标和和样样本本指指标标还还有有:
方方差差:
总总体体方方差差、样样本本方方差差标标准准差差:
总总体体标标准准差差、样样本本标标准准差差2.抽样调查的组织形式通常有以下四种组织形式:
一、简单随机抽样(纯随机抽样)即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。
随机抽选可有各种不同的具体做法,如:
1.直接抽选法;2.抽签法;3.随机数码表法;二、类型抽样(分类抽样)先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,组成一个总的样本。
类型的划分:
一是必须有清楚的划类界限;二是必须知道各类中的单位数目和比例;三是分类型的数目不宜太多。
类型抽样的好处是:
样本代表性高、抽样误差小、抽样调查成本较低。
如果抽样误差的要求相同的话则抽样数目可以减少。
两种类型:
1.等比例类型抽样(类型比例抽样);2.不等比例类型抽样(类型适宜抽样)。
三、机械抽样(等距抽样)先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。
排列次序用的标志有两种:
1.选择标志与抽样调查所研究内容无关,称无关标志排队。
2.选择标志与抽样调查所研究的内容有关,称有关标志排队。
研究工人的平均收入水平时,按工号排队。
研究工人的平均收入水平时,按工号排队。
例研究工人的生活水平,按工人月工资额高研究工人的生活水平,按工人月工资额高低排队。
低排队。
例机械抽样按样本单位抽选的方法不同,可分为三种:
1.随机起点等距抽样kkkk+a2k+a(n-1)k+aak(k为抽取间隔)示意图:
2.半距起点等距抽样kkkk(k为抽取间隔)示意图:
2k2kk22kk2)1(kkn3.对称等距抽样示意图:
kkk2k-a2k+a4k-a4k+aak(k为抽取间隔)机械抽样的好处:
1.可以使抽样过程大大简化,减轻抽样的工作量;2.如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。
机械抽样,实际上是一种特殊的类型抽样。
因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。
四、整群抽样整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。
整群抽样的好处:
组织工作比较简单方便,适用于一些特殊的研究对象。
其不足之处是,一般比其它抽样方式的抽样误差大。
五、多阶段抽样即把抽样本单位的过程分为两个或几个阶段来进行。
(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲:
先抽大单位(可以用类型抽样或机械抽样),再在大单位中抽小单位(可用整群抽样或简单随机抽样),小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。
六、重复抽样和不重复抽样以上每一种组织方式又有不同的抽取样本方法(机械抽样和整群抽样没有重复抽样):
重复抽样:
又称有放回抽样。
不重复抽样:
又称不放回抽样。
例例111500050005000LL,111500049994998LL,3.抽样平均误差一、抽样误差的概念及其影响程度在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。
登登记记误误差差系系统统性性误误差差统统计计误误差差代代表表性性误误差差实实际际误误差差随随机机误误差差抽抽样样平平均均误误差差抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。
xXpP抽抽样样误误差差就就是是指指样样本本指指标标和和总总体体指指标标之之间间数数量量上上的的差差别别,即即、。
抽样误差的影响因素:
1.全及总体标志变异程度。
正比关系2.抽样单位数目的多少。
反比关系3.不同的抽样方式。
4.不同的抽样组织形式。
抽样误差的作用:
1.在于说明样本指标的代表性大小。
误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。
2.说明样本指标和总体指标相差的一般范围。
二、抽样平均误差抽样平均误差实际上是样本指标的标准差。
通常用表示。
在N中抽出n样本,从排列组合中可以有各种各样的样本组:
1.如果是重复抽样:
例1
(2)nnNNnDC考考虑虑顺顺序序的的重重复复抽抽样样:
不不虑虑顺顺序序的的重重复复抽抽样样:
样样本本种种数数种种考考5
(1)()50312,500,000nnNBN2.如果是不重复抽样:
考虑顺序的不重复抽样:
例)!
(!
)()(nNNnNNNNAnN121)(种2002512544647484950550A不考虑顺序的不重复抽样:
例)!
(!
nNnNCnN)(!
种7601182123452002512545550550AC例21020304050X30()525()五户家庭三月份购买某商品的支出:
元,元,元,元,元元现从五户中抽取二户作调查,如果为重复抽样考虑顺序种排列组合如下:
101010-20400102015-15225103020-10100104025-52510503000201015-15225202020-10100203025-52520403000205035525301020-10100302025-5253030300030403552530504010100401025-52540203000403035525404040101004050451522550103000502035525503040101005040451522550505020400合计-2500接左:
x样样本本平平均均数数xX误误差差2xX抽抽取取样样本本x样样本本平平均均数数xX误误差差2xX抽抽取取样样本本)()(10252500)()(2本配合为样总数元抽平均差样误nnXxx以上资料编成次数分配表如下:
样本数f(即次数分配)101-20152-15203-10254-530503545403104521550120合计25-xxX2(xX)ff抽样误差是所有可能出现的样本指标的标准差。
它是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。
抽取样本样本平均数离差102015-15225103020-10100104025-52510503000203025-525204030002050355253040355253050401010040504515225合计-750上例五户中抽取二户调查,如采取不考虑顺序的不重复抽样方法,则:
255410()X30()21CQ种种元元xxX2xX)(66.810750)(元抽平均差样误n)X-x(2x三、纯随机抽样的抽样平均误差
(一)平均数的抽样平均误差1.重复抽样或或xx2nn取得的途径有:
1.用过去全面调查或抽样调查的资料,若同时有n个的资料,应选用数值较大的那个;2.用样本标准差S代替全及标准差;3.在大规模调查前,先搞个小规模的试验性的调查来确定S,代替;4.用估计的方法。
某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:
=20小时,根据以往资料,产品质量不太稳定,若=200小时,例x2202()100小时)(20小时于是:
2.不重复抽样:
2xNnnN12xNnn
(1)nN但但实实际际中中,往往往往很很大大,很很小小,故故改改用用下下列列公公式式:
x400100
(1)1.99()10010000上上例例中中,若若为为不不重重复复抽抽样样,则则:
小小时时
(二)成数的抽样平均误差已证明得:
成数的方差为p(1-p)ppp(1p)np(1p)n
(1)nN在在重重复复抽抽样样情情况况下下:
在在不不重重复复抽抽样样情情况况下下:
某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。
例%1374.1)150001501(150)98.01(98.0)1()1(%14.1150)98.01(98.0)1(%9815014715015000NnnppnpppnNpp若按不重复抽样方式:
四、类型抽样的抽样平均误差在重复抽样情况下:
nix2NNiii222ixn
(1)nN在在不不重重复复抽抽样样情情况况下下:
重重复复抽抽样样在在成成数数情情况况下下:
pp(1p)n不不重重复复抽抽样样:
pp(1p)n
(1)nN某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷,现用类型抽样法调查1200公顷,以各种麦田占全农场面积的比重分配抽样面积数量。
麦田类型抽样的平均误差计算表类型全场播种面积(公顷)抽样调查面积(公顷)单位面积产量不均匀程度指标(千克)符号Ninii丘陵地区6000600750337500000平原地区3600360840254016000山地24002401000240000000合计120001200-831516000例iin222222iiiiiiiixn831516000692930()n1200NNn
(1)nN6929301200
(1)519.697522.8()120012000千克或千克高产麦田比重的平均误差计算表类别高产田比重(%)非高产田比重(%)麦田不均匀程度指标(%)抽样调查面积(公顷)pi(1-pi)ni符号pi1-pipi(1-pi)ni丘陵80201660096.0平原9010936032.4山地60402424057.6合计-1200186iiiipp(1p)n186P(1P)15.5%n1200p(1p)n0.1551200
(1)
(1)1.078%nN120012000五、机械抽样(等距抽样)的抽样平均误差1.若按无关标志排队公式用以上纯随机抽样的公式,一般采用不重复抽样公式:
xp2n
(1)nNp(1p)n
(1)nN为为简简便便起起见见,也也可可采采用用重重复复抽抽样样公公式式。
2.若按有关标志排队公式用类型抽样的公式:
2xpnp(1p)n六、整群抽样的抽样平均误差整群抽样的抽样平均误差受三个因素影响:
(1)抽出的群数(r)多少(反比关系)
(2)群间方差()(正比关系)2计算方法如下:
为为全全及及总总体体各各群群的的平平均均数数为为全全及及平平均均数数或或:
为为抽抽样样各各群群的的平平均均数数为为抽抽样样各各群群的的总总平平均均数数为为全全及及总总体体各各群群的的成成数数为为全全及及总总体体的的成成数数22x22x22p2priii1riii1riii1(xx)xrx(xx)rxrx(pp)prp或或:
为为抽抽样样各各群群的的成成数数为为抽抽样样各各群群的的总总成成数数2riii1(pp)rprp(3)抽样方法2x2pxpRrrR
(1)R1Rr
(1)rRr
(1)rR整整群群抽抽样样都都采采用用不不重重复复抽抽样样。
所所以以在在计计算算抽抽样样误误差差时时要要使使用用修修正正系系数数,当当的的数数目目较较大大时时,可可用用来来代代替替。
整整群群抽抽样样的的抽抽样样平平均均误误差差计计算算公公式式为为:
假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟产品进行检验,用以检查产品的合格率,检查结果如下:
合格率群数rpipir80%20.801.6-0.09960.0198485%40.853.4-0.04960.0098490%120.9010.80.0004(太小不计)95%30.952.850.05040.0076298%30.982.940.08040.01939合计24-21.59-0.05669例ipp2i(pp)r22p2prii1ppr21.590.8996r24(pp)r0.056690.002362r24r0.00236224
(1)
(1)0.0095(0.95%)rR24288p样本群平均合格率群间方差或七、多阶段抽样的抽样平均误差以两阶段抽样为例设总体分R组,每组包含个单位,若各组相等,则在抽样第一阶段,从R组中抽出r组;在抽样第二阶段,在中选的r组中随机抽选个单位,若各组m相等,则n=rmiMMRMNim则则:
在重复抽样下在不重复抽样下)()(1122MmMrmRrRrxrmrx22例某大在期初生行体重抽,先设学学对学进样调查全校从80班以不重抽方法机抽取个复样随8班,个然后再抽取的班中再分抽取从别10人作第二个为阶段抽位。
算所得的抽平均体重样单计样为60.5千克,抽各班方差平均样内数为50,各班之体重方间差为22。
假全校各班均设为40人。
以试94.45%(t=2)的率,推校生平均体重的范。
概断该学围22x已知:
解:
80R8r40M10m560.x502222x2t)()(1122MmMrmRrRrx731140104010850180880822.)()(4637312.xxt463560463560.X千克千克96630457.X以上抽样平均误差的公式归纳如下:
2px2222x2pnnp1-pn
(1)1N
(2)p1-pp1-p(3)p1-p,最最基基本本的的是是:
若若为为:
乘乘以以若若不不重重复复抽抽样样类类型型抽抽样样整整为为:
若若为为群群抽抽样样:
nNRr4.全及指标的推断一、点估计和区间估计
(一)点估计例xXpP是是由由样样本本指指标标直直接接代代替替全全及及指指标标,不不考考虑虑任任何何抽抽样样误误差差因因素素。
即即用用直直接接代代表表,用用直直接接代代表表。
就就100x1002p98%X1002P98%在在全全部部产产品品中中,抽抽取取件件进进行行仔仔细细检检查查,得得到到平平均均重重量量克克,合合格格率率,我我们们直直接接推推断断全全部部产产品品的的平平均均重重量量克克,合合格格率率。
只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。
如能满足下列三个准则:
无偏性一致性有效性就会得到合理的估计
(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。
根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:
抽样极限误差=t,(t为概率度)可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);例抽样误差范围的实际意义是要求被估计的全及指标或P落在抽样指标一定范围内,即落在或的范围内。
Xxxpp二、全及平均数和全及成数的推断xxppF(t)xXxpPp()()t在在概概率率的的保保证证下下:
即即:
全全及及平平均均数数成成数数抽抽样样平平均均数数成成数数某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。
则:
例1)403.57(100003)99.73%(t(3)402.38(100002)95.45%(t千克量的可能范:
亩产围为小的平均亩麦保,证该农场若以率概千克量的可能范:
亩产围为小的平均亩麦保,证该农场若以率概千克43.39619.1340062.39719.12400)2()(19.1)100001001(10012)1()1(22XxXNnnxx某机械厂日产某种产品8000件,现采用纯随机不重复抽样方式(按重复抽样公式计算),从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
则:
抽样一级品率:
例2pp380p100%95%400P(1P)95%(195%)1.09%n40095.45%Pp95%21.09%92.82%97.18%在概率的保证下,全及一级品率:
三、全及总体总量指标的推断
(一)直接推断法抽样平均数(成数)总体单位数=总体标志总量1.如果采用点估计方法:
上例1中:
40010000=400(万千克)如果用区间估计方法:
上例1中该农场小麦总产量的范围为:
t=2:
(397.62402.38)10000=397.62402.38(万千克)t=3:
(396.43403.57)10000=396.43403.57(万千克)2.上例2中,全部一级品数量的范围为:
(92.82%97.18%)8000=7425.67774.4(件)
(二)修正系数法就是用抽样所得的调查结果同有关资料对比的系数来修正全面统计资料时采用的一种方法。
某村6000农户,2005年年末统计养猪头数,从下往上报的是9000头,现抽10(600户)的农户再复查一下,发现有漏报,也有重报。
按600户,原来数字是890头,实际复查为935头,故总的来说,是少报。
例1)(9455%)06.51(90006000%06.5%06.589045)(45890935头农户养猪头数,即:
的系数来修正可用差错率头某市房地局,年报工资总额3218.1万元。
现抽查14个单位:
年报:
415.03万元多报:
0.44万元少报:
1.47万元抵冲后1.47-0.44=1.03(万元)例2)(09.3226%)248.01(1.3218%248.003.41503.1万元年报工资总额正工资总额,则:
根据这一系数,再来修差错率5.必要抽样数目的确定一、影响必要抽样数目的因素21.P(1P)()体体各各单单位位的的标标志志变变异异程程度度,即即或或的的大大小小正正比比总总2.()许许误误差差的的大大小小反反比比允允3.t()率率度度的的数数值值正正比比概概4.样样方方式式和和组组织织形形式式抽抽
(一)简单随机抽样二、必要抽样数目的计算公式:
重重复复抽抽样样222tn22tP(1P)n不不重重复复抽抽样样:
22222NtnNt222NP(1P)tnNtP(1P)
(二)类型抽样重复抽样:
不重复抽样:
22;P(1-P)P(1-P)221ppptn)(222xtn22222tNNtnx)()(pptNNpptnp11222(三)机械抽样在有总体差异程度和比重的全面资料时,可采用类型抽样的公式;没有总体的全面资料时,可采用简单随机抽样的公式。
(四)整群抽样2222ppxxnr;NR;22x222xx22p222ppRtrRtRtrRt不不:
重重复复抽抽样样建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。
根据过去资料=1.5,求样本数应是多少?
例1)(1344)5.1(34000)1.0(4000)5.1(3)1.0(21)(450)5.1(34000)2.0(4000)5.1(35.132.040002222232222222222人则,保证程度不变即若误差范围缩小人,解:
nMtNNtntN某金笔厂月产10000支金笔,以前多次抽样调查一等品率为90%,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?
例2)(8267.825)9.01(9.0210000)02.0(10000)9.01(9.02P)-P(1tP)N-P(1tn)(900)02.0()9.01(9.02P)-P(1tn)2(%45.95)(%2%901000022222p2222p2支在不重复抽样条件下:
支在重复抽样条件下:
,解:
NttFPNp例3某鞋厂对某种类型的鞋子进行耐穿时间的抽样检验,经过二次小型抽样检验,结果知道标准差是18天与20天,试问在抽样误差不超过1天(概率为0.9011)的要求下,至少应抽查多少双鞋子?
已知:
解:
即至少应抽查即至少应抽查400400双鞋双鞋子子1812021651.t122取应)(.双400651206512222222tn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第2章 抽样