换一换

冰点文库 > 资源分类 > PPT文档下载

预览

统计学课件第七章抽样推断.ppt

资源ID：2358478 资源大小：1.39MB 全文页数：107页
资源格式： PPT 下载积分：15金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

统计学课件第七章抽样推断.ppt

1、统计学概论内容,第一章统计总论第二章统计调查第三章统计数据的整理与显示第四章统计指标第五章指数的因素分析第六章时间序列分析第七章抽样推断第八章相关与回归分析第九章统计预测第十章统计的综合评价第十一章统计分析报告,第一节抽样推断概述,第三节参数估计,第二节随机抽样的概率分布,第四节抽样设计,第七章抽样推断,第一节抽样推断概述,指样本单位的抽取不受主观因素及其他系统性因素的影响，每个总体单位都有均等的被抽中机会,按照随机原则从全部研究对象中抽取一部分单位进行调查，并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断，从而认识总体的一种统计方法。

2、,抽样推断,统计推断,全及总体指标：参数（未知量）,样本总体指标：统计量（已知量）,抽样推断,随机原则的实现,抽签法,是将总体中每个单位的编号写在外形完全一致的签上，将其搅拌均匀，从中任意抽选，签上的号码所对应的单位就是样本单位。,随机数表法,将总体中每个单位编上号码，然后使用随机数表，查出所要抽取的调查单位。,计算机模拟法,是将随机数字编制为程序存储在计算机中，需要时将总体中各单位编上号码，启用随机数字发生器输出随机数字，然后从总体中找到相应总体单位形成样本。,并非所有的抽样估计都按随机原则抽取样本，也有非随机抽样,总体,随机样本,非随机样本,与总体分布特征相同,与总体分布特征不同,按随机原

3、则抽取样本单位以样本的数量特征推断总体的数量特征抽样推断产生抽样误差，但抽样误差可以事先计算并控制,抽样推断的特点,与全面调查相比，抽样调查既节省了人力、物力、财力和时间，又达到了认识总体数量特征的目的。我国在1994年确立了以周期性普查为基础，以经常性抽样调整为主体，同时辅之以重点调查、科学核算等综合运用的统计调查方法体系。,不可能进行全面调查时不必要进行全面调查时来不及进行全面调查时对全面调查资料进行补充修正时,抽样推断的应用,抽样推断理论基础,大数定律,中心极限定律,表明大量随机观象平均结果具有稳定性的性质。大数定律论证了如果独立随机变量总体存在有限的平均数和方差，则对于充分大的样本可以

4、近乎100%的概率，期望样本平均数与总体平均数的绝对离差为任意小。,如果变量总体存在有限的平均数和方差，那么不论这个总体的分布如何，随着样本容量的增加，样本平均数的分布，便趋近于正态分布。,抽样推断理论基础,大数定律,中心极限定律,表明大量随机观象平均结果具有稳定性的性质。大数定律论证了如果独立随机变量总体存在有限的平均数和方差，则对于充分大的样本可以近乎100%的概率，期望样本平均数与总体平均数的绝对离差为任意小。,如果变量总体存在有限的平均数和方差，那么不论这个总体的分布如何，随着样本容量的增加，样本平均数的分布，便趋近于正态分布。,抽样推断的基本概念,全及总体,抽样总体,又称总体或母体，

5、是所要认识研究对象的全体，它由具有某种共同性质或特征的单位所组成。常用N表示全及总体的单位数目。,又称样本或子样，是指从全及总体中按照随机原则抽取的那部分个体的组合。抽样总体的单位数称为样本容量，通常用n表示。1nN。,抽样推断的基本概念,例如：在100万户居民中，随机抽取1000户居民进行家庭收支情况调查，其中的100万户居民就是全及总体，而被抽中的1000户居民则构成抽样总体。,n30称为大样本,n 30称为小样本.n/N称为抽样比.,设总体中个总体单位某项标志的标志值分别为,其中具有某种属性的有个单位，不具有某种属性的有个单位，则,根据全及总体各个单位的标志值或标志特征所计算的反映

6、总体某种属性的综合指标，又称总体参数。,全及指标,总体平均数（又叫总体均值）：,全及指标,总体单位标志值的标准差：,总体单位标志值的方差：,总体成数：,总体是非标志的标准差：,总体是非标志的方差：,设样本中个样本单位某项标志的标志值分别为，其中具有和不具有某种属性的样本单位数目分别为和个，则,样本平均数（又叫样本均值）：,样本单位标志值的标准差：,样本单位标志值的方差：,为的无偏估计,为的无偏估计,样本成数：,样本单位是非标志的标准差：,样本单位是非标志的方差：,为的无偏估计,为的无偏估计,抽样方法的分类,重复抽样,从总体N个单位中随机抽取一个样本容量为n的样本，每次从总体中抽取

7、一个，并把结果登记下来，又放回总体中重新参加下一次的抽选。又称放回抽样,总体单位数N不变，同一单位可能多次被抽中。,根据取样方式不同，可分为：,抽样方法的分类,不重复抽样,每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.,总体单位数减少n，同一单位只可能被抽中一次。,抽样方法的分类,根据对样本的要求不同，可分为：,考虑顺序抽样,不考虑顺序抽样,考虑各单位的中选顺序。,ABCCBA,不考虑各单位的中选顺序。,ABCCBA,考虑顺序的重复抽样,不考虑顺序的不重复抽样,考虑顺序的不重复抽样,不考虑顺序的重复抽样,综合起来共有四种抽样方法,样本的可能数目,考虑顺序的不重复抽样

8、,不考虑顺序的不重复抽样,考虑顺序的重复抽样,不考虑顺序的重复抽样,把填湖南风采35选7福利彩票号码看作一次抽样，则它属于哪一种抽样？中特等奖的概率是多少？（09选6呢？）,不考虑顺序的不重复抽样,样本的概率分布,把某一抽样方法的全部可能的样本指标与其相应的概率排列起来，就得到样本的概率分布。,若将样本指标的取值分别记为其相应的概率记为P1，P2，Pn，将它们按顺序排列起来，可得如下概率分布表。,第二节随机抽样的概率分布,抽样分布,样本统计量所有可能值的概率分布,主要样本统计量,平均数比率（成数）方差,分布的形状及接近总体参数的程度,学生成绩 30 40 50 60 70 80 90,按随

9、机原则抽选出名学生，并计算平均分数。,平均数的抽样分布,二者均值相等,学生成绩 30 40 50 60 70 80 90,离差-30-20-10 0 10 20 30,平均数的抽样分布,全部可能样本平均数的均值等于总体均值，即：从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的,比率的抽样分布,全部可能样本比率的均值等于总体比率，即：从非正态总体中抽取的样本比率，当n足够大时其分布接近正态分布。从正态总体中抽取的样本比率，不论容量大小其分布均为正态分布。样本比率的标准差为总体标准的。,比率的抽

10、样分布,教师是否博士是是否否否是,具有博士学位的比率：0.5比率的标准差：0.5,从总体中按重复抽样方法随机抽取人，计算其比率和标准差,比率的抽样分布,全部可能样本比率的均值等于总体比率，即：从非正态总体中抽取的样本比率当n足够大时其分布接近正态分布。从正态总体中抽取的样本比率不论容量大小其分布均为正态分布。样本比率的标准差为总体标准差的。,比率的抽样分布,学生成绩 60 70 80 90均值 75方差 125,从中按重复抽样方式抽取人，计算样本的均值及方差S。,方差的抽样分布,样本抽样分布,原总体分布,抽样误差,167CM,169CM,172CM,160CM,162CM,167C

11、M,175CM,180CM,165CM,167CM,170CM,175CM,178CM,180CM,162CM,173CM,155CM,160CM,170CM,165CM,平均身高=169.8CM,平均身高=174.6CM,总平均身高=168.6CM,第三节参数估计,也叫抽样估计，就是根据样本指标数值对总体指标数值作出估计或推断。,参数估计,通常，把用来估计总体特征的样本指标叫估计量或统计量，待估计的总体指标叫总体参数。,特点,1、它在逻辑上运用归纳推理而不是演绎推理。,2、在方法上运用不确定的概率估计方法，而不是运用确定的数学分析方法。,3、抽样估计存在抽样误差。,点估计,从总体中抽取一个

12、随机样本，计算与总体参数相应的样本统计量，然后把该统计量视为总体参数的估计值，称为参数的点估计。,的抽样分布,点估计的最大好处：给出确定的值点估计的最大问题;无法控制误差.,问题：第一，我们为什么以这一个而不是那一个统计量来估计某个总体参数？,估计值的优良标准,第二，如果有两个以上的统计量可以用来估计某个总体参数，其估计结果是否一致？是否一个统计量要优于另一个？,估计值的优良标准：无偏性、有效性、一致性,抽样估计量的优良标准,设为待估计的总体参数，为样本统计量，则的优良标准为：,若，则称为的无偏估计量,若，则称为比更有效的估计量,若越大越小，则称为的一致估计量,作为优良的估计量

13、，除了满足无偏性的要求外，其方差应比较小,有效性,指随着样本单位数的增大，样本估计量将在概率意义下越来越接近于总体真实值,一致性,抽样估计量的优良标准,学生成绩 30 40 50 60 70 80 90,有效性,按随机原则抽选出名学生，并计算平均分数和中位分数。,有效性,中位数的抽样分布,平均数的抽样分布,无偏性,有偏,无偏,一致性,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出5名学生，并计算平均分数。,n=4时的抽样分布,n=5时的抽样分布,为的无偏、有效、一致估计量；为的无偏、有效、一致估计量；为的无偏、有效、一致估计量。,数理统计证明：,抽样估计量的

14、优良标准,区间估计,给出一个区间(置信区间)并推断真正的参数以一定的概率存在于这个区间的方法。,抽样平均误差,指每一个可能样本的指标值与总体指标值之间平均离差，即一系列样本指标的标准差,式中：为样本平均数的抽样平均误差；为可能的样本数目；为第个可能样本的平均数；为总体平均数,注意：不要混淆抽样标准差与样本标准差！,抽样平均误差的计算,样本平均数的抽样平均误差,当N500时，有,重复抽样时：,不重复抽样时：,样本成数的抽样平均误差,重复抽样时：,不重复抽样时：,当N500时，有,抽样平均误差的计算公式,关于总体方差的估计方法,用过去同类问题全面调查或抽样调查的经验数据代替；用样本标准差代替总

15、体标准差，用代替。,抽样平均误差的计算公式,影响抽样误差的因素,总体各单位标志值的差异程度（即标准差的大小）：越大，抽样误差越大；样本单位数的多少：越大，抽样误差越小；抽样方法：不重复抽样的抽样误差比重复抽样的抽样误差小；抽样组织方式：简单随机抽样的误差最大。,抽样极限误差,指在一定的概率保证程度下，抽样指标与总体指标之间抽样误差的最能范围，也称作抽样允许误差。常用大可表示。,上式表明:样本平均数（成数）是以总体平均数（成数）为中心，在相应的区间内变动。,由于总体成数和总体平均数是未知的，它要求靠实测的抽样平均数和抽样成数来估计，因而抽样误差的实际意义是希望总体平均数（成数）落在某个已知的范

16、围内。,抽样极限误差,所以前面的不等式应变换为：,在一个特定的全及总体中，当抽样方法和样本容量固定时，抽样平均误差是一个定值，因此，抽样极限误差通常以抽样平均误差为标准单位来衡量。即抽样极限误差通常表示为抽样平均误差的多少倍。,由于t值与样本估计值落入允许误差范围内的概率有关，因此，t也称为概率度。,抽样估计的置信度,抽样指标和总体指标的误差不超过一定范围的概率大小，我们将它称之为概率保证程度，也叫抽样估计的置信度，一般用F(t)表示。即：,置信度,t值与相应的概率保证程度存在一一对应关，常用t值及相应的概率保证程度为：,t值概率保证程度1.00 0.6827 1.96 0.9500 2.0

17、0 0.9545 3.00 0.9973,在大样本下,68.27%,95.45%,99.73%,抽样极限误差,以样本统计量为中心，以抽样平均误差为距离单位，可以构造一个区间，并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大，则概率保证程度越高。,区间估计原理,区间估计原理,0.6827,落在范围内的概率为68.27%,区间估计原理,0.9545,落在范围内的概率为95.45%,样本抽样分布曲线,原总体分布曲线,区间估计原理,0.9973,落在范围内的概率为99.73%,样本抽样分布曲线,总体分布曲线,总体平均数的区间估计,表达式,其中，为极限误差,步骤,计算样本平均数；,搜集总体

18、方差的经验数据；或计算样本标准差，即,总体平均数的区间估计,计算抽样平均误差：,重复抽样时：,不重复抽样时：,总体平均数的区间估计,计算抽样极限误差：,确定总体平均数的置信区间：,总体平均数的区间估计,【例A】某企业生产某种产品的工人有1000人，某日采用不重复抽样从中随机抽取100人调查他们的当日产量，要求在95的概率保证程度下，估计该厂全部工人的日平均产量和日总产量。,总体平均数的区间估计,100名工人的日产量分组资料,解：,则该企业工人人均产量及日总产量的置信区间为：,即该企业工人人均产量在124.797至127.203件之间，其日总产量在124797至127303件之间，估计的可靠

19、程度为95,总体成数的区间估计,表达式,其中，为极限误差,步骤,计算样本成数；,搜集总体方差的经验数据；,计算抽样平均误差：,重复抽样条件下,不重复抽样条件下,总体成数的区间估计,计算抽样极限误差：,确定总体成数的置信区间：,总体成数的区间估计,【例B】若例A中工人日产量在118件以上者为完成生产定额任务，要求在95的概率保证程度下，估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,总体成数的区间估计,100名工人的日产量分组资料,完成定额的人数,解：,则该企业全部工人中完成定额的工人比重及完成定额的工人总数的置信区间为：,即该企业工人中完成定额的工人比重在0.8432至0.95

20、68之间，完成定额的工人总数在843.2至956.8人之间，估计的可靠程度为95。,样本容量的确定,影响样本容量的因素,总体各单位标志值的差异程度（即标准差的大小）：越大，所需样本容量越多允许的极限误差的大小：越大，所需样本容量越小；推断的可靠程度，即置信度：对可靠程度要求越高，所需样本容量越大；抽样方法和抽样组织方式：重复抽样比不重复抽样所需样本容量要多；类型抽样比简单随机抽样所需样本容量多。,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,确定方法,推断

21、总体平均数所需的样本容量,重复抽样条件下：,通常的做法是先确定置信度，然后限定抽样极限误差。,或 S通常未知。一般按以下方法确定其估计值：过去的经验数据；试验调查样本的S。,计算结果通常向上进位,不重复抽样条件下：,推断总体平均数所需的样本容量,【例A】某食品厂要检验本月生产的10000袋某产品的重量，根据上月资料，这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下，平均每袋重量的误差范围不超过5克，应抽查多少袋产品？,解：,在不重复抽样下:,确定方法,推断总体成数所需的样本容量,重复抽样条件下：,不重复抽样条件下：,确定方法,推断总体成数所需的样本容量,【例B】某企业对一批总

22、数为5000件的产品进行质量检查，过去几次同类调查所得的产品合格率为93、95、96，为了使合格率的允许误差不超过3，在99.73的概率保证程度下，应抽查多少件产品？,【分析】因为共有三个过去的合格率的资料，为保证推断的把握程度，应选其中方差最大者，即P=93。,必要样本容量的影响因素,总体方差的大小；允许误差范围的大小；概率保证程度；抽样方法；抽样的组织方式。,第四节抽样设计,抽样方案设计的基本原则,随机原则,抽取样本单位时，应确保每个总体单位都有被抽取的可能；在对样本单位的资料进行搜集和整理时，不能随意遗漏或更换样本单位,最大抽样效果原则,抽样误差最小,在其他条件相同的情况下，选抽样误差

23、最小的方案,费用最少,在其他条件相同的情况下，选费用最少的方案,设计抽样方案时，通常是在误差达到一定要求的条件下，选择费用最少的方案,简单随机抽样,对总体未作任何处理的情况下，然后按随机原则直接从总体中抽出若干单位构成样本,抽样平均误差的计算公式见书：P243,抽取样本的具体方法：,抽签法,是将总体中每个单位的编号写在外形完全一致的签上，将其搅拌均匀，从中任意抽选，签上的号码所对应的单位就是样本单位。,随机数表法,将总体中每个单位编上号码，然后使用随机数表，查出所要抽取的调查单位。,简单随机抽样的特点,1、直接从总体中抽取所要调查的单位，无须分组、分类、排队等处理；,2、必须事先对总体中的所有

24、单位进行编码和编号；,3、抽取样本时不借助有关标志的辅助信息,4、当总体各单位村志值之间差异很大时，采用此方法不能保证样本的代表性。,先将总体全部单位按某一标志分类，然后从各类型中按随机原则抽取样本单位组成样本。,类型抽样,实质上是分组法与随机原则的结合。,例如，在居民生活水平调查中，先按职业分类，然后每种职业分别随机抽取部分居民进行调查。,类型抽样的优点：,能提高样本的代表性；能降低影响抽样平均误差的总方差；组织起来较为方便；,类型抽样分组的基本原则：,尽量缩小各组内标志值之间的差异，增大组间各标志值之间的差异。,样本在各组间的分配方法：,等额分配法：每组抽取的单位数一样。,等比例分配法：按

25、各组单位的比例分配样本单位。,最佳分配法：按各组的方差大小分配样本单位。方差大的组分配较多的样本单位。,经济分配法：按各组的方差大小分配样本单位，同时考虑各组抽样调查的费用。,实际工作中比较常用的是等比例分配法。,类型抽样的抽样平均误差,一、抽样平均数,二、抽样成数,【例】某市有250家商店，分大中小三类，现从中等比例抽出50家进行销售额调查，所得资料如下,以95.45%的概率保证程度估计该市所有商店的平均销售额。,根据题意知：N=250，W1=0.1，W2=0.3，W3=0.6，f1=f2=f3=0.2，1-=95.45%，t=2,总体均值的点估计值为：,解：,抽样标准误差为：,总体均值的区

26、间估计为：,4822*11.9=485.16万元，505.84万元,首先将总体各单位按某一标志排队，然后按固定的顺序和间隔抽取样本单位。又称机械抽样或系统抽样。,等距抽样,等距抽样是不重复抽样，适合于对单位数不多且能进行排序的总体抽样。,按无关标志排队,按有关标志排队,总体单位的排列顺序和所研究的标志数值大小是无关的。如调查居民生活水平时，按姓氏笔划排队。,总体单位的排列顺序和所研究的标志数值大小有密切关系。如居民收入调查，按银行存款高低排序。,根据样本抽选的方法不同，可分为：,随机起点等距抽样,半距起点等距抽样,对称起点等距抽样,（总体单位按某一标志排序）,（总体单位按某一标志排序）,（总体

27、单位按某一标志排序）,按无关标志排队的等距抽样，可按不重复抽样下的简单随机抽样来计算；按有关标志排队的等距抽样，可按类型抽样来计算。,等距抽样的抽样平均误差,等距抽样的抽样平均误差估计比较复杂。一般按以下方法近似计算。,将总体全部单位分为若干“群”，然后以群作为抽样单位，从总体中抽取若干群作为样本，并对中选群的所有单位进行全面调查。,例：总体群数R=16 样本群数r=4,样本容量,简单、方便，能节省人力、物力、财力和时间，但其样本代表性可能较差,整群抽样,整群抽样的抽样平均误差,1、抽样平均数的平均误差,2、抽样成数的平均误差,例：对灯泡质量进行抽样检查，每隔5小时，抽出6分种产品进行全面检测

28、，共抽取25批，测得平均照明时间为935小时，样本标准差为50小时，试以68.27%的概率保证程度估计全部灯泡的平均照明时间。,解：由题意知：,抽样标准误差为：,全部灯泡的平均照明时间的区间估计为：,9359.90小时,先通过抽取若干级中间组全单位，最后再来抽取基本调查单位的抽样组织形式。,例：在某省100多万农户抽取1000户调查农户生产性投资情况。,多阶段抽样,多阶段抽样,多阶段抽样的适用范围,多阶段抽样具有整群抽样的优点，同时还可用于：,1、当抽样调查的面积很广或者总体范围太大无法直接抽取样本时；,2、可以相对地节约人力物力；,3、对那些基本单位数多且分散的总体，可使抽样工作大大简化。,调查对象的性质特点对调查对象的了解程度（抽样框的特点）抽样误差的大小人力、财力和物力等条件的限制,在实际工作中，选择适当的抽样组织方式主要应考虑：,如何确定抽样组织方式,作业,

注意事项

本文（统计学课件第七章抽样推断.ppt）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。