抽样设计2.pptx
- 文档编号:14167477
- 上传时间:2023-06-21
- 格式:PPTX
- 页数:95
- 大小:690.23KB
抽样设计2.pptx
《抽样设计2.pptx》由会员分享,可在线阅读,更多相关《抽样设计2.pptx(95页珍藏版)》请在冰点文库上搜索。
打开几扇窗户看世界打开几扇窗户看世界-如何做抽样设计23年6月21日1知识目录抽样过程与选择抽样方法抽样的基本条件*(选讲)抽样误差抽样容量23年6月21日2目录抽样过程与选择抽样方法抽样条件抽样误差案例研究23年6月21日3提问:
生活中个人决策使用小样本例子?
23年6月21日4名词库:
抽样的專有名詞概念母体:
究象。
研调查对基本位:
母体中的位。
单个别单本:
母体的一部分。
样:
母体某一性或量。
参数属变数值量:
根据本据求得,用以估的统计样数计参数数值抽框:
可得之抽位名。
样样单册抽偏:
抽到特殊特征之位。
样误单抽差:
本代表性。
样误减损样23年6月21日5Lapin1978
(一)经济性
(二)时效性(三)母体过大(四)母体中某些基本单位难以接触(五)破坏性调查(六)正确性抽样的原因23年6月21日6抽样的过程定义同质总体选择资料收集方法购置抽样框选择抽样方法决定样本量建立和详细选择样本的可操作性计划执行可操作性的样本计划评估抽样结果23年6月21日7二、抽样框(二、抽样框(Yates1953)
(一)足夠
(二)完整(三)不重複(四)正確(五)便利23年6月21日8目录抽样概论抽样方法抽样条件抽样误差案例研讨23年6月21日9抽样方法抽样方法(samplesurvey)非率概抽样(probabilitysampling)率概抽样方便抽样判断抽样配额抽样雪球滚抽样简单机随抽样系统抽样分层抽样整群抽样多层抽样23年6月21日10辨下列的抽请别样设计:
200光者的名是上月光者的名个娱乐场顾单娱乐场顾中抽出的,他行卷单来对们进问调查台目主持人听打,就禁止核武器电节请众电话进来问以“是”“否”的方式表意题发见一狗食制造商想一狗食新品,他定个测试个产决选择100用罐装食品狗的狗主人,个喂养选择100使用个干食的狗主人和喂养100用半食品狗的狗主个湿喂养人,行。
进调查就退休老人的生活了在公散步的老人,在通对询问园他推荐,行。
过们进调查23年6月21日11抽样方法总论机抽随样23年6月21日12抽样方法总论非机抽随样23年6月21日13抽样方法分论一、机抽简单随样SimplerandomSampling施方法实缺点优适用情境(BoyedJr.,Westfall,&Stasch1985)1.成本高2.完的最新抽框详细备样3.效率低统计4.管理困难()补5。
无法排除具代极表性的本样(BoyedJr.,Westfall,&Stasch1985)1.母体小2.有适的抽框当样3.位成本不受距离影单访问响4.无其有母体的信息它关23年6月21日14手把手教你随机数表依机率抽取。
假定由名象,以机表机抽取调查对随数随名本,其抽步如下:
样样骤()名象,由至将调查对编等。
个连续编号()由机表,利用抽方法取始点。
例如随数签选号码开取第十五行第四列。
选为()由定之起始点,取,取以象设选号码选号码调查对之位相同:
即,编号数,有效本以下。
号码样()若抽位机表抽件相同即本样单与随数样号码条为样,大于,跳不取。
调查编号过()若逢重,亦跳。
复号码应过()依上述方法,采用,即完成连续个号码为样本用。
选23年6月21日15抽样方法分论
(二)机械抽样施方法实缺点优适用情境限制:
1.抽偏样误2.机偏随误适用情境:
抽位以机次序样单随编列23年6月21日16抽样方法分论
(二)机械抽样施方法实缺点优适用情境限制:
1.抽偏样误2.机偏随误适用情境:
抽位以机次序样单随编列23年6月21日17抽样方法分论(三)分抽层样施方法实【圖示】:
分層抽樣方法母體樣本*抽樣第一層第二層第三層23年6月21日18抽样方法分论(三)分抽层样缺点优優點:
1.可靠性高2.利於比較23年6月21日19抽样方法分论(三)分抽层样StratifiedSampling注要素关1.分基层础2.目不超六层级数过层(Cochran1963)3.等比例或不等比例本样23年6月21日2023年6月21日21抽样方法分论(四)整群抽样ClusterSampling施方法(示)实图*抽樣*23年6月21日22案例:
歌曲著作權使用費的分配美作曲家国组织(ASCAP)每年向广播台收取电播曲利金权$435百万(每年播放53百万小时歌曲),分配作曲家。
将给会员所有台依小将电区种类(都、村等会区乡)、地区(新英格、太平洋等兰)及付出利权金度额(反台听应电众数)等特性分成432。
层每机几台机音小,共音层随选随录数时录60,000小。
由家辨所有歌曲的作曲作时专认词者,后依比例分配利金。
记录权23年6月21日23抽样方法分论(四)整群抽样缺点(优图示)優點:
1.經濟2.簡便缺點:
抽樣偏差23年6月21日24(五)多抽级样23年6月21日25非概率抽样方便抽(样任意抽样)任意抽样又称为便利抽样法。
它是调查人员按工作的方便,随意抽选样本的一种抽样方法。
运用任意抽样技术进行抽样,一般由调研人员从工作方便出发,在调研对象范围内随意抽选一定数量的样本进行调查。
“街头拦人法”和“空间抽样法”是任意抽样的两种最常见的方法23年6月21日26任意抽样技术简便易行,可以及时取得所需的资料,节约时间和费用。
这种方法适用于探测性调查,或调查前的准备工作。
一般在调查总体中每一个体都是同质时,才能采用此类方法。
但是,实践中并非所有总体中每一个体都是相同的,所以抽样结果偏差较大,可信程度较低,它的样本没有足够的代表性。
23年6月21日27判抽断样判断抽样又称为目的抽样法。
这是一种根据调查人员的经验或某些有见解的专家选定样本的抽样方法。
23年6月21日28判断抽样法具有简便、易行、及时,符合调查目的和特殊需要,可以充分利用调查样本的已知资料,被调查者配合较好,资料回收率高等优点。
但是,这种方法易发生主观判断产生的抽样误差,同时由于判断抽样中各个调查个体被抽取的概率不知道,因而无法计算抽样误差和可信程度。
如果调查者的经验丰富,知识面广,判断能力强,抽取的样本代表性就大,反之则小。
23年6月21日29(三)配抽额样配额抽样是按照一定标准,分配样本数额,然后在规定数额内由调查人员任意抽选样本的一种抽样方法。
配额抽样是非概率抽样中最流行的一种。
运用配额抽样技术进行抽样,要按照一定标准分配样本数额,并在规定数额内由调查人员任意抽选样本。
23年6月21日30案例分析在某项调查中,确定样本总数为180个,可单独选择消费者收人、年龄、性别三个标准中的一个进行抽样。
按独立控制配额抽样,其各个标准样本配额比例及配额数如表所示。
年龄年龄人数人数18-294030-406041-557056以上以上30合计合计200性别性别人数人数男男100女女100合计合计200收入收入人数人数高高36中中74低低90合计合计20023年6月21日31最终配额表格高高中中低低合计合计男男女女男男女女男男女女18-2934789940(20%)30-40651111131460(30%)41-55661313161670(35%)56以上以上33657630(15%)小计小计181837374545200合计合计36(18%)74(37%)90(45%)23年6月21日32相互控制配额抽样对每一个控制特性所需分配的样本数都做了具体规定,调查者必须按规定在总体中抽取调查个体,由于调查面较广,从而克服了独立控制配额抽样的缺点,提高了样本的代表性。
23年6月21日334、滚雪球抽样滚雪球抽样的主要目标是分析调研总体的稀有特征。
滚雪球技术的主要优点表现在,通过对调研总体设定期望的特征,从而增强了样本个体的相似性。
因此,采用这种方法所产生的抽样误差比较小,成本比较低。
23年6月21日34走向实践:
央视收视率网的建设走向实践:
央视收视率网的建设1999年,央索福瑞公司建立一收率视为个视调查网(人量技),需要一有代表性的员测仪术调查个n=2000的本,采用了分多户样层级pps整群抽技。
根样术据以往究,知道非人口的比例是一著影研农业个显响指。
标因此分三大域:
将电视观众为区
(1)城市域:
行政中的所有地市(只含非区划级农人口在业50%的市的家庭)辖区户
(2)中域:
行政中的所有地市(只含非间区划级农人口在业30近似正态
(2)的总体均数为,标准差=/23年6月21日53xxxxn正态分布与标准正态分布23年6月21日54正态分布的特点呈形且只有一钟个众数于平均关值对称一正分布的特殊性是由平均和注差定的个态数标决正曲下方的面等于态线积1,表明包括的所有的它果调查结正分布下方在任意量之的面,等于态两个变值间积在范机抽取一察象的率。
这个围内随个观对概所有的正分布在平均准差之的面态数个标间积相等,都占曲下方面的线积68.26%,或者是占全部象体果的调查对总结68.26%。
正分布这称为态的比例性。
这是统计推断的基础。
23年6月21日551随机变量随机变量XXNN(mm,ss22)标准正态分布标准正态分布NN(00,1122)Z变换均数均数标准正态分布标准正态分布NN(00,1122)StudentStudenttt分分布布自由度:
自由度:
nn-1-1t分布(t-distribution)23年6月21日56XZms-=XXZnms-=),(2nN1,nvSXnSXtX抽样推断总体均数的点估计(总体均数的点估计(pointestimationpointestimation)与区间估计()与区间估计(intervalintervalestimationestimation)参数的估计参数的估计点估计:
由样本统计量点估计:
由样本统计量直接估计总体参数直接估计总体参数区间估计:
在一定可信度区间估计:
在一定可信度(Confidencelevel)下,同时考虑抽样误差下,同时考虑抽样误差按预先给定的概率按预先给定的概率
(1),确定一个包含未知总体参数,确定一个包含未知总体参数的范围。
这一范围称为参数的可信区间或置信区间的范围。
这一范围称为参数的可信区间或置信区间(confidenceinterval,CI)23年6月21日57pSX、可信区间的定义按一定的率或可信度概(1-)用一估个区间来计体所在的范,范通常的可总参数围该围称为参数信或者置信区间区间(confidenceinterval,CI),先定的率预给概(1-)可信度或者置信度称为(confidencelevel),常取95%或99%。
可信区间(CL,CU)是一开区间CL、CU称为可信限23年6月21日58可信区间的两个要素可信度(Confidence):
准确性,可靠性,即1-。
一般取90%,95,可人为控制精确性(Precision):
的大小,越小越好。
区间必二者兼须顾23年6月21日5995%可信区间的含义-2-1012按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。
23年6月21日60当总体方差2已知时总体均值的区间估计对于给定的显著性水平,可以构造均值的置信区间为:
23年6月21日61nZXnZX2/2/,总体方差未知时(小样本)总体均值的区间估计对于给定的显著性水平,总体均值的置信区间为:
23年6月21日62nStXnStX2/2/,走进实践某地从区5000名消者中机拍出费随100名,其生活支出行,抽果平均对费进调查样调查结为生活支出费为200元,平均抽差样误为5元。
要求在95.45%的率保下,推算出全部消者概证费的生活支出。
费总额23年6月21日63问题简述标准差和标准误的区别和联系简述参考值范围与均数的可信区间的区别和联系23年6月21日64目录抽样概论抽样方法抽样条件抽样误差样本容量的确定案例研讨23年6月21日65认识一组名词精确度(Precision)与准确度(Validity)精确度乃用以衡量估精确可依的程度,如在物价中计值赖统计,家若物价如上升经济认为0.02影向策,精确度即将经济决则须订在0.02。
准确度乃衡量母全体特性母全体特性之差。
者之与实际间异两差愈小,代表准确度愈高。
异抽样误差(Samplingerror)因抽本可能偏离母群体,其的差距抽差。
为样时样会间称为样误抽差可用方法估。
样误统计计置信水平(Confidencelevel)以本估推母群体大小,正确估的率有多少。
信样计数论时计概水准是,即正确估率,者以此表示其赖计概为调查来正确估程度。
计可允许误差(Toleratederro)在抽,者所要求的精确度不是百分之百,而是在样调查时调查定母群体平均上下各多少百分点作差容忍范,容忍设数为误围称为差。
误23年6月21日66抽差样误由于机抽的偶然周素使本各位的随样样单体各位的代表性差,而引起的抽指结构对总单结构别样和全及指之的离差。
如抽平均体平标标间绝对样数与总均的离差,抽成体成的离差等等。
数绝对样数与总数绝对必须指出,抽样误差是抽样所特有的误差。
凡进行抽样就一定会产生抽样误差,这种误差不可避免的,但可以控制,又称为可控制误差。
抽样误差与另外两种误差不同。
一种是调查误差,即在调查过程中,由于观察测量、登记、计算上的差错所引起的误差:
另一种是系统偏误,即由于违反随机原则,有意地选择较好或较差单位进行调查,造成样本代表性不足所引起的误差。
这两种误差是可防止和避免的。
23年6月21日67影响抽样误差大小的因素体位的志的差程度。
总单标值异本位的多少。
样单数抽方法。
样抽的形式。
样调查组织23年6月21日68重复抽样当总体为N,样本容量为n时,抽样平均误差公式为:
非重复抽样抽样的平均误差成数的抽样平均误差23年6月21日6923年6月21日70【案例】【案例】某地抽样调查某地抽样调查4060岁的成年男子岁的成年男子780人,人,得到高血压患病率为得到高血压患病率为p=0.1410,问抽样误差为多少?
,问抽样误差为多少?
标准误:
标准误:
(1)0.1410(10.1410)0.0125780pppSn率的标准误小,说明抽样误差较小,表示样本率对率的标准误小,说明抽样误差较小,表示样本率对总体率的代表性好;反之,率的标准误大,样本率对总体率的代表性好;反之,率的标准误大,样本率对总体率的代表性差。
总体率的代表性差。
抽限差样极误抽平均差明某一抽方案的差样误说样总误情,但在行抽,只抽取一况实际进样调查时个本。
那本的差,可能大于或小于样么这个样误平均差。
于抽,一定要求有误对该项样调查会一允差的范。
一允差的范,个许误围这许误围就作限差。
称极误抽果的抽指体指之的离样结样标与总标间差,可能是正或是。
因此允差的范采负许误围取形式,用表示,即:
绝对值23年6月21日71非抽样误差之避免此差只有心抽程及正确行抽工作,种误细设计样过认真执样方可最低减为.、未能回受卷或答目不完整,漏据。
问填项遗数、量不准:
由量方法及量工具不良所致。
其主要测测测导原因之乃:
于的了解不深入,致念及推设计错误对问题够导观理偏离主,整抽,所量象非母群逻辑题个样设计错误测对并体正。
真参数偏激或匿事,易造成受者不安或力,不问题隐实访压愿予正面答案。
给更本:
抽象原不同。
换样样访问对与来计划之,解或加入自己意。
访问员错误误问题见方法影向答案。
即者本身影向被者。
访问访问状况、据理:
如程序,料入。
数处错误设计错误资牏错误23年6月21日72a.弥漏据采用加整法加为补遗数权调以弥。
至于卷有回收,答不完整。
采补问没问项用算法加以弥。
设补b.利用手提微行地;算机电脑进实访问计辅助(电话访问CATI)。
c.分析利用算机理;抽的统计计处样调查结果由算机通路直接送使用者。
经计讯网传结23年6月21日73目录抽样概论抽样方法抽样条件抽样误差样本容量的确定案例研讨23年6月21日74走向实践:
学校记者团的烦恼厦理工院是厦市大,在校生有门学门办学学1.5万人,分住在有别拥160万人口和40万人口的城里。
校区学者正努力增加广告收入,广告人希望用宣记团员运传工具,是座城市的商人相信所大城市这们这学对这个有着上的影。
作主要究的一部分,需要经济响为研调一生本以确定些生在校中每月查个学样这学这个学个的消,所得的果,用估全体生的费额调查结将来计学消。
者面的任是取一相大的本费额调研临务选个当样,使其能体提供一比精确的的估,但够对总值个较计是他不愿意金浪在一太大而又们将调查资费个实际没有必要的本上。
样那要抽取多少生?
么个学50?
200?
1000?
3000?
23年6月21日75样本容量的影响因素_定性定性因素23年6月21日76样本容量的影响因素定量定量因素23年6月21日77定量因素23年6月21日78确定样本容量的方法式的方法教条定式的方法约成本基法础分析法统计置信法区间23年6月21日79教条式方法以“经验性”为前提,认为样本容量应该是“为保证精确,样本至少应该是总体的5%”。
但是,教条式方法忽略了抽样的精确度问题。
而且,当被研究的总体很大时,这绝非时一种经济的方法。
约定式方法认为某一个约定或者数量就是正确的样容量。
但是,约定式确定样本容量的方法忽略了与所要进行的研究相关的情况,而且采用约定的样本容量进行研究所需的费用可能比用正确的样本容量进行研究高许多。
23年6月21日80成本基础法将成本作为确定样本容量的基础。
成本将不是确定样本容量的唯一考虑因素,但在确定样本容量时也应予必要的考虑。
统计分析用于分析样本中的各个子集。
在对子集进行观察时有必要将每个子集视为一个单独的总体,并为每一个子集确定样本容量,同时运用恰当的方法以及其他特定的方式以从子集中获取信息。
一旦完成了上述工作,就可以将所有的子集合并起来组成一个大的集合,以获得对整个团体的描述。
23年6月21日81置信区间法置信区间法:
运用差异性置信区间、样本分布以及平均数标准误差或百分率标准误差等概念来创建一个有效的样本。
23年6月21日82复习:
一组概念差性异准差标置信区间抽分布样平均数或者百分率标准误差的概念23年6月21日83为样本容量。
为样本标准差;为平均数标准误差;式中:
nSSnSSxx为样本容量。
);为(为样本中的百分率;为百分率标准差;式中:
npqpsnqpSpp100样本容量的确定方法23年6月21日84为可接受误差。
;为为总体的估计差异性;相关的标准误差;为与所选置信区间为样本容量;式中:
epqpznepqzn10022接受误差。
体的精确度或可为样本估计值相对于总可变性;的为由估计的标准差表明的标准误差来表明);联为置信区间(由与之关为样本容量;式中:
esznezsn222确定样本大小时实际操作案例讲解
(一)如何估计总体的差异性调研人员就必须考虑所有与差异性有关的信息,甚至还可能需要进行导向性研究,一在确定最终样本容量之前,对总体的性质有更好的理解。
(二)如何确定期望精确度的值营销项目主管的任务是选取营销决策人员允许误差的可接受范围,以满足其决策所需。
23年6月21日85来表示。
通常调研精确度以%x(三)如何计算期望置信度通常的方法是运用99%或95%的标准置信区间。
换算成z分别是2.58和1.96。
(四)特殊的确定样本容量情况1、从小总体中抽样小总体情况是指在其样本超过总体总容量的5%如果是小总体,则样本容量的公式就需要用有限乘数来进行调整。
有限乘数是指近似于不包括样本的总体比率的平方根的一个调整因素。
23年6月21日861NnN样本容量公式样本容量2、运用非概率抽样确定样本容量运用非概率抽样确定样本容量运用非概率抽样确定样本容量的唯一合理方法是,衡量从样本中所获取信息的利益或价值与收集这些信息的成本。
23年6月21日87实践中的抽样法表方式查23年6月21日88手把手教你:
实际操作根据究的目的,确定究的置信水平(调查研研)和精度(或最大允许误差)由和精度根据公式计算或查表,确定样本的最低容量n根据总体规模对基本样本进行调整在对研究精度没有太大影响的条件下,根据经费来决定是否减少某些层的样本量从统计分析的角度考虑是否增加某些层的样本量根据已有的经验或对答卷回收率的预测,考虑是否增加样本数,增加多少根据抽样方式的设计效应调整样本量走向实践23年6月21日89附录:
样本容量与总体规模、精度要求之间的对应关系精度要求体模总规本容量样体比例未知,总初步估计为0.5容差许误为0.05(或5%)置信度为95%504410080500222100028650003701000038510000039810000004001000000040010000000040023年6月21日90判断思考题本量越大,代表性越好。
样本量越大,精度越大样本量越大,量越接近于正样统计分布态体越大,所需的本量就要越总样大23年6月21日91课后作业一名的究人,在厦人在快餐后的平麦当劳研员发现门们均消费为3.30美元,准偏差标为0.40美元,而在福州,人的平均消们费为3.25美元,准差标为0.10美元。
(1)有些据如何分析域的快餐消情。
这数两个区费况
(2)同,时还发现80%的客喜法式薯,顾欢条调查人希望差低于员误6%,置信度为95%,求出需要的样本量。
雀巢公司去年在全国10大商名街上行一次截业进拦访,且有问并发现20%的公更愿用咖代替茶作众啡来为午茶的料。
今年,雀巢想行一次全性的机热饮进国随拨。
确保号电话调查为99%的置信度下得获2.5%的精确度,依据的究本容量是多少?
研样动手实践23年6月21日92生某些型的池行流强度。
根据产号电进电检验以往正常生,流强度的准差产经验电标为0.4安培,合格率为90%。
在用重抽的方法现复样,要求在95.45%率保下,抽平均流概证样电强度的限差不超极误过0.08安培,抽的合格样率的限差不超极误过5%。
必要的抽请问样单位是多少?
数(多指抽,采用其中多的位标样时应该较单)数23年6月21日93委托方要求置信度调研为99%,允抽差许样误为2%,按此要求算出所需的本容量计样为500,而需要委托方支付用是这调查费20000美元,但委托方用于此目的算只有项预17000美元。
有有其他方案可供?
没选择23年6月21日94Thanks博客博客http:
/邮箱邮箱23年6月21日95
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 设计