抽样调查-第3章分层随机抽样.pptx
- 文档编号:14160623
- 上传时间:2023-06-21
- 格式:PPTX
- 页数:98
- 大小:986.51KB
抽样调查-第3章分层随机抽样.pptx
《抽样调查-第3章分层随机抽样.pptx》由会员分享,可在线阅读,更多相关《抽样调查-第3章分层随机抽样.pptx(98页珍藏版)》请在冰点文库上搜索。
返回3.1引言一、定义先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分别为然后,在每个层中独立地进行抽样,称为分层抽样.LNNN,21)(1LhhNN返回二、作用分层抽样在实际工作中应用的非常广泛,主要是因为它具有其它抽样方法所没有的特点:
1.分层抽样的抽样效率较高,也就是说,分层抽样的估计精度较高。
2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。
3.层内抽样方法可以不同,而且便于抽样工作的组织。
返回三、使用场合在对分层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质,通常按调查对象的不同类型进行划分。
2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大。
3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。
4.抽样组织实施的方便,通常按行政管理机构设置进行分层。
返回四、符号说明我们用下标h表示层号(h=1,2,,L)。
关于第h层的记号如下:
单元总数:
样本单元数:
第i个单元标志值(观察值):
hNhnhiy返回单元权数:
总体均值:
第L层总体方差:
NNWhhhYhNihihYN11hNihhihhYYNS122)(11返回抽样比:
样本均值:
第L层样本方差:
hhhNnfhyhnihihyn11hnihhihhyyns122)(11返回3.2简单估计量及其性质一、总体均值的估计1.估计量的定义总体均值的估计:
=如果得到的是分层随机样本,则总体均值的简单估计为:
YhYLh1stYhWLhhhYNN11YLhhhLhhhstyNNyWy111返回2.估计量的性质性质一对于一般的一般的分层抽样,如果是的无偏估计(h=1,2,L),则是的无偏估计。
的方差为:
V()=值得注意的是:
只要对各层估计是无偏的,则对总体的估计也是无偏的。
因此,各层可以采用不同的抽样方法,只因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对整体的推算也是无偏要相应的估计量是无偏的,则对整体的推算也是无偏的。
的。
hYhYstYYstYstY)(12LhhhYVW返回性质一的证明:
由于对每一层有因此hhYYE)(YNYYNYNNYWYEWYWEYELhhhLhhhLhhhLhhhLhhst1111111)()()(返回性质二对于分层简单随机抽样,是的无偏估计,的方差为:
YstystyLhhhhhLhhhstSnfWyVWyV122121)()(返回性质二的证明:
若各层独立进行简单随机抽样,对每一层有由第二章性质二得因此LhhhststhhyVWyVYyEYyE12)()(,)(,)(21)(hhhhSnfyV212121)()(hhhLhhhLhhstSnfWyVWyV返回性质三对于分层随机抽样,的无偏估计为:
LhhhhhLhhhstsnfWyvWyv122121)()()(styV返回性质三的证明:
对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质三,得因此,的一个无偏估计为:
21)(hhhhsnfyv212121)()(hhhLhhhLnhstsnfWyvWyv)(styV返回二、总体总量的估计1.估计量的定义总体总量Y的估计为:
如果得到的是分层随机样本,则总体总量Y的简单估计为:
2.估计量的性质由于与只差一个常数,因此,与具有相同的性质。
LhhstYYNY1styNYYYstysty返回性质一对于一般的分层随机抽样,如果是的无偏估计,则是的无偏估计,的方差为:
性质二对于分层随机抽样,的方差为:
=Ysty)()()(12LhhstYVYVNYVYY)()(12122LhhhLhhhYVNYVWNY)(YV)(12LhhhYVNLhhhhhSnfN1221返回=性质三对于分层随机抽样,的无偏估计为:
【例3.1】调查某地区的居民奶制品年消费支出,以居民户为调查单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽出10户,调查获得如下数据(单位:
元)估计该地区居民奶制品年消费总支出及估计的标准差。
(数据见下表))(Yv)(12LhhhYvNLhhhhhsnfN1221)(YV返回样本户奶制品年消费支出样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出(元)1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025返回由上表,N=2850,各层的层权及抽样比为:
),4,3,2,1(,10=hnh05.020010,07018.0285020011111NnfNNW025.040010,14035.0285040022222NnfNNW0133.075010,26316.0285075033333NnfNNW0067.0150010,52632.02850150044444NnfNNW返回各层样本均值及样本方差为:
同理有5.39111111niiyny722.1624)(1121111211yynsnii333.193,24556.8205,165667.2166,105244233222sysysy返回因此,估计奶制品年消费总支出为:
估计量方差及标准差的样本估计2096502415001657501054005.3920041hhhyNY8241241221039.51)()(hhhhhhhhsnfNyvWNYv23208)()(YvYs返回三、总体比例的估计1.估计量的定义总体比例P的估计为:
2.估计量的性质如果定义第i个单元具有所考虑的特征;其他。
(i=1,2,N)则对总体比例的估计类似对总体均值的估计,这时,与具有同样的性质。
LhhhstpWp1,0,1iYstpsty返回的无偏估计(h=1,2,L),则性质一对于一般的分层随机抽样,如果是P的无偏估计。
的方差为:
性质二对于分层随机抽样,是P的无偏估计。
证明:
注意到及因而的方差为:
hhPp是stpstpLhhhstpVWpV12)()(stphhhhhhhnQPNnNpV1)(hhNN1stp返回性质三对于分层随机抽样,的无偏估计为V()LhhhhhhhhLhhhstnQPNnNNNpVWpV121221)
(1)()(LhhhhhhhhnQPNnNNN122)(1LhhhhhhnQPfW12)1(stpLhhhhhhhhLhhhstnqpNnNNNpvWpv1212211)
(1)()(LhhhhhhnqpfW121)1(返回【例3.2】在例3.1的调查中,同时调查了居民拥有家庭电脑的情况,获得如下数据(单位:
台),如表3.2。
估计该地区居民拥有家庭电脑的比例及估计的标准差。
(数据见下表)返回样本户拥有家庭电脑情况样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000表3.2返回解:
由上表可得该地区居民拥有家庭电脑比例的估计为:
估计量的方差为:
1.0,4.0,2.0,2.04321pppp2.0)1.015004.07502.04002.0200(2850114141hhhhhhstpNNpWp005.0)0099.015004.07500173.04000169.0200(28501)
(1)(222224122hhhhpvNNpv返回3.3比率估计量及其性质将比率估计的思想和技术用于分层随机样本时将比率估计的思想和技术用于分层随机样本时,对,对总体参数的估计有两种途径:
总体参数的估计有两种途径:
一种是对每层样本分别考虑比估计量,然后对各层一种是对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均的比估计量进行加权平均,此时所得的估计量称为分别此时所得的估计量称为分别估计(估计(separateratioestimator);separateratioestimator);另一种是对比率的分子、分母分别加权计算出分层另一种是对比率的分子、分母分别加权计算出分层估计量,然后用对应的估计量来构造比估计,这样所得估计量,然后用对应的估计量来构造比估计,这样所得的估计量称为联合比估计(的估计量称为联合比估计(combinedcombinedratioestimator).ratioestimator).返回1.分别比率估计总体均值总体总量的分层比率估计为:
总体均值:
总体总量:
层权L:
层数为的比率估计,为比率估计YYhLhhhhLhRhhRsXxyWyWy11LhRhhLhhhRsRsYXxyyNY11:
hWhy的简单估计为hY:
hx的简单估计为hX:
RhyhYRhYhY返回比率估计量的方差:
式中,分别为第i层指标Y,X的方差及相关系数.分别比率估计量要求每一层的样本量分别比率估计量要求每一层的样本量都比较大都比较大,否则否则,偏倚可能比较大偏倚可能比较大.)2()1()(22212xhyhhhxhhyhLhhhRsSSRSRSnfWyV)2()1()(22212xhyhhhxhhyhLhhhRsSSRSRSnfNYVhxhyhhhhSSNnf;22返回2.联合比率估计(combinedratioestimator)总体均值:
总体总量:
式中:
表示的无偏估计;表示的无偏估计.均方误差为:
XRXxyycststRcXRXxyYcststRcstyYstxX)2()1()()(22222yxhxhyhhhRcRcRSSRSnNfNyVyMSE)2()1()()(2222yxhxhyhhhRcRcRSSRSnfNYVYMSE返回3.分别比率估计量与联合比率估计量的比较一般而言,分别比率估计量的方差小于联合比一般而言,分别比率估计量的方差小于联合比率估计量的方差。
但当每层的样本量不太大时,还率估计量的方差。
但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有实际使用时,如果各层的样本量都较大,且有理由认为各层的比率理由认为各层的比率Rh差异较大,则分别比率估差异较大,则分别比率估计优于联合比率估计。
当各层的样本量不大,或各计优于联合比率估计。
当各层的样本量不大,或各层比率层比率Rh差异很小,则联合比率估计更好些。
差异很小,则联合比率估计更好些。
返回【例4.4】某市某市19961996年对年对950950家港口生产单位完家港口生产单位完成的成的吞吐量进行了调查,吞吐量进行了调查,19971997年欲对全市港口生产单位年欲对全市港口生产单位完成的吞吐量进行调查。
对港口生产单位按非国有完成的吞吐量进行调查。
对港口生产单位按非国有(h=1)(h=1)和国有(和国有(h=2)h=2)分为两层,单位数分别为分为两层,单位数分别为800800家和家和150150家,分别在两层中调查了家,分别在两层中调查了1010家和家和1515家港口生产单位家港口生产单位,调查数据如下表,试计算调查数据如下表,试计算19971997年全市港口生产单位年全市港口生产单位完成的吞吐量。
完成的吞吐量。
19971997年国有和年国有和非国有企业调非国有企业调查数据如下页查数据如下页返回ixiyiixiyi19580149553022202102210320335938433604964120117423040051771805600651625325861000880730234977005608332286811001230927221597208231013797103103901147846512817650139191160141160107015735698返回(将上述数据计算的中间结果列于P77的表中)1.1.按分别比率估计量估按分别比率估计量估计计68.91938925)2()1()(5.2725362221221yxhhxhhyhLhhhhRShhhRSsRsRsnfNYvXRY返回2.2.按联合比率估计量估计按联合比率估计量估计按联合比率估计量按联合比率估计量估计比按分别比率估计估计比按分别比率估计量估计要好一些量估计要好一些!
84.86293698)2()1()(1.271956274300279700277310222212yxhxhyhLhhhhRCststRCsRsRsnfNYvXXYY返回三、分别比率估计与联合比率估计的比较具体情况分析参看教材P87)
(2)()1()()(22212xhyhhhxhhLhhhhRSRCSSRRSRRnfWyVyV)
(2)()1(22212xhhxhyhhhxhhLhhhhSRSSRRSRRnfW)
(2)()1(2212xhhxhyhhxhhhLhhhhSRSSSRRRRnfW返回3.4回归估计量及其性质与比估计相似,将回归估计的思想和技术与比估计相似,将回归估计的思想和技术用于分层随机抽样时,同样有两种方法:
用于分层随机抽样时,同样有两种方法:
一种是对每层样本分别求取回归估计量,然一种是对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,此时所得的后对各层的回归估计量进行加权平均,此时所得的估计量称为分别回归估计(估计量称为分别回归估计(separateregressionseparateregressionestimator);estimator);另一种是对两个变量先分别计算出分层简单估另一种是对两个变量先分别计算出分层简单估计量然后再对它们的分层简单估计量来构造回归估计量然后再对它们的分层简单估计量来构造回归估计,这时所得的估计量称为联合回归估计计,这时所得的估计量称为联合回归估计(combinedregressionestimator).combinedregressionestimator).返回1.分别回归估计(separateregressionestimator)总体均值的估计:
总体总量的估计:
YLhLhhhhhhlrhhlrsxXyWyWy11)(YLhhhhhhlrslrsxXyNyNY1)(返回当各层的回归系数为事先给定的常数时当各层的回归系数为事先给定的常数时,分别回归估计量是无偏的。
分别回归估计量是无偏的。
其方差为其方差为:
其中是第h层的回归系数)2()1()(2222yxhhxhhyhhhhhlrsSSSnfWyVh返回并且当时,达到最小,即通常未知,可用回归系数作为的估计:
LhSSxhyxhh,2,1,2)(lrsyV)1()1()(2212minhyhLhhhhlrsSnfWyVhnihhihnihhihhihxxxxyyb121)()(hhbh返回注意
(1)分别回归估计量是有偏的,但当每一层的样本量都很大时,估计的偏倚可以忽略,其方差近似为:
(2)这里是子总体的回归系数,是子总体样本的回归系数,前者是未知的,后者是可知的。
hn)1()1()(2212hyhLhhhhlrsSnfWyVhbh返回方差的样本估计值为:
式中,分别回归估计量要求每一层的样本量都较大分别回归估计量要求每一层的样本量都较大,如如果这个条件得不到满足果这个条件得不到满足,则分别回归估计量的偏倚则分别回归估计量的偏倚可能很大可能很大,这时这时,采用联合回归估计量更好些。
采用联合回归估计量更好些。
)(lrsyV212)1()(ehLhhhhlrssnfWyvhnihhihhhihehxxbyyns122)()(21返回2.联合回归估计(combinedregressionestimator)总体均值的估计:
总体总量的估计:
式中,分别为的分层估计。
是无偏的,其方差为:
Y)(ststlrcxXyyY)(ststlrclrcXXYyNYststxy和XY和lrclrcYy及)2()1()(22222yxhxhyhhhhhlrcSSSnNfNyV)2()1()(2222yxhxhyhhhhhlrcSSSnfNYV返回并且,只要取时,达到最小。
当回归系数未知时,取为的样本估计:
这时,联合回归估计量是有偏的,但当样本量n较大时,估计的偏倚可以忽略,其方差近似为:
LhhxhhhLhyxhhhcnSfWnSfWB12212)1()1()(lrcyVcBLhhxhhhLhyxhhhcnsfWnsfWb12212)1()1(返回方差的样本估计为:
)2()1()(2222yxhcxhcyhhhhhlrcSBSBSnfWyV)(lrcyV)2()1()(2222yxhcxhcyhhhhhlrcsbsbsnfWyv返回分别回归估计与联合回归估计的比较当回归系数设定时当回归系数设定时,分别回归估计优于分别回归估计优于联合回归估计;联合回归估计;当回归系数由样本估计时当回归系数由样本估计时,如果各层的样如果各层的样本量不太小本量不太小,采用分别回归估计为宜采用分别回归估计为宜.否则,否则,采用联合回归估计为好!
采用联合回归估计为好!
返回【例4.6】(续例4.4)利用回归估计量估计该市港口生产单位1997年完成的吞吐量。
解:
样本回归系数:
h=1,非国有h=2,国有1.070170.856402则按分别回归估计量估计:
(见P85)hb30.270556lrsY22.89872469)(lrsYv11.9480)()(lrslrsYvYs返回按联合回归估计量估计:
(见教材P86)从本题看从本题看,联合联合回归估计量比分别回归回归估计量比分别回归估计量要优一些估计量要优一些!
4.271753,0290.1lrccYb,17.85358332)(lrcYv96.9238)()(lrclrcYvYs返回分别比率估计、联合比率估计、分别回归分别比率估计、联合比率估计、分别回归估计和联合回归估计的比较估计和联合回归估计的比较(参看教材P96.【例3.3】)返回比率估计与回归估计总结:
比率估计与回归估计总结:
在分层随机抽样中,当有辅助变量信息可以利在分层随机抽样中,当有辅助变量信息可以利用时,我们可以采用分别比率估计、联合比率估计、用时,我们可以采用分别比率估计、联合比率估计、分别回归估计以及联合回归估计方法。
在选用这些分别回归估计以及联合回归估计方法。
在选用这些估计量时,要注意以下几个问题:
估计量时,要注意以下几个问题:
11、比估计是有偏估计量,当各层样本量都较大时、比估计是有偏估计量,当各层样本量都较大时两种比估计都近似无偏;当某些层的样本量不够大,两种比估计都近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比率估计近似无偏。
而总样本量较大时,联合比率估计近似无偏。
返回22、在回归估计中,若事先设定回归系数,其估计量、在回归估计中,若事先设定回归系数,其估计量无偏;若用样本回归系数作为回归估计系数,其估计无偏;若用样本回归系数作为回归估计系数,其估计量有偏,但在大样本情况下近似无偏。
量有偏,但在大样本情况下近似无偏。
33、当主要变量、当主要变量YY和辅助变量和辅助变量XX高度相关时,比率高度相关时,比率估估计和回归估计都是有效的,且能大幅度地提高估计计和回归估计都是有效的,且能大幅度地提高估计精度。
精度。
返回3.3样本量在各层的分配对于分层抽样,当总的样本量一定时,还需研究各层应该分配多少样本量的问题,因为对总体推算时,估计量的方差与各层的方差有关,还与各层所分配的样本量有关。
一、比例分配这里的比例分配指的是按各层单元数占总体单元数的比例,也就是按各层的层权进行分配,这时对于分层抽样,这时总体均值的估计是:
fNnNnfWNNnnhhhhhh或Y返回总体比例P的估计是:
这是因为总体中的人一单元,不管它在哪一层,以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。
这种样本也称为自加权的样本。
hnihihLhhhLhLhhhhpropynnnynnyWy11111yynynniiLhnihih11111Lhhproppnpp11返回的方差为propy21121)()(hhhLhLhhhhhpropSnfnnWyVWyVLhhhSWnf121的方差为proppLhhhhLhhhhhPROPQPWnfNQPNNnfPV112111)(返回二、最优分配1.最优分配如果我们考虑简单线性费用函数,总费用则最优分配是:
LhhhnccC10LhcSNcSNcSWcSWnnLhhhhhhhLhhhhhhhh,2,1,11返回证明:
作拉格朗日函数,求条件极值:
)()11()()(1021210hLhhhhLhhhLhhhstncccSNnWcnccyVLLhcSWnnLhhhhh,2,1,01222返回解得:
由此得出下面的准则:
如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配些,.,2,1,/11LhcSNcSNcSWcSWnnLhhhhhhhLhhhhhhhhLhhhhLhhhhhhcSWnncSWn122122,返回2.Neyman(内曼)分配对于分层随机样本,作为特例,如果每一层的费用相同,即时,最优分配可简化为:
这种分配称为Neyman分配.这时,达到最小。
cchLhSNsNnSWSWnnLhhhhhLhhhhhh,2,1,11)(styV返回【例3.3】续例3.1如果样本量仍为n=40,则按比例分配和Neyman分配时,各层的样本量应为多少?
(见17)解:
按比例分配时,各层的样本量为:
即各层的样本量分别为3,6,11,20.05.214052632.053.104026316.061.54014035.081.24007018.044332211nWnnWnnWnnWn返回对于Neyman分配,根据前面计算所得的各层权数和方差,得到:
8286.2722.162407018.011sW5330.6667.216614035.022sW8380.23556.820526316.033sW3181.7333.19352632.044sW51775.403181.78380.235330.68286.241hhhsW返回因此,按Neyman分配时,各层应分配的样本量为:
即各层的样本量分别为3,,.23.753.2345.679.251775.408286.24043241111nnnsWsWnnhhh返回【例【例3.53.5】某市有甲、乙两个地区,现进行家庭收入某市有甲、乙两个地区,现进行家庭收入的调查。
令的调查。
令n=500,n=500,已知甲地区共有已知甲地区共有2000020000户居民,乙地户居民,乙地区共有区共有5000050000户居民;甲地区居民和乙地区居民年收入户居民;甲地区居民和乙地区居民年收入标准差估计分别为;同时对甲地和标准差估计分别为;同时对甲地和乙地每户的平均抽样费用之比为乙地每户的平均抽样费用之比为22:
33,请分别计算出,请分别计算出甲地和乙地进行比例分配、一般最优分配(考虑费用甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。
因素)以及内曼分配(不考虑费用因素)的样本量。
【解】【解】根据已知的数据,通过计算整理可根据已知的数据,通过计算整理可得下表:
得下表:
2000,250021SS返回h1200000.285725002713.2857505.07632500000.7143200031428.5714823.7861总计700001.0000-2141.85711328.8624关于样本量分配的计算关于样本量分配的计算
(1)比例分配。
hNhWhShchhSWhhhcSW/35714.3577143.050014386.1422857.05002211
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 分层 随机 抽样