第五章 抽样推断.pptx
- 文档编号:14142236
- 上传时间:2023-06-21
- 格式:PPTX
- 页数:145
- 大小:1.69MB
第五章 抽样推断.pptx
《第五章 抽样推断.pptx》由会员分享,可在线阅读,更多相关《第五章 抽样推断.pptx(145页珍藏版)》请在冰点文库上搜索。
第一节抽样推断概述第三节参数估计第二节抽样分布第四节抽样设计第五章抽样推断康师傅矿物质水“太酸”吗?
成都消费者尹先生到四川大学华西附二院看望一生病的朋友,并给朋友买去一件康师傅矿物质水。
就在他拿出来准备给朋友喝时,邻床一位姓金的先生提醒他说:
这种水PH值偏低,呈酸性,不适合常喝,体质较弱的病人更不宜饮用。
尹先生对此半信半疑,先后带了两瓶水到四川省人民医院和成都市二医院分别进行PH值检测。
两次检测均显示,其PH值仅为5.86.2,根本达不到中国生活饮用水卫生标准(GB5749-2006)规定的6.58.5。
10月6日,尹先生要求重庆顶津公司就康师傅瓶装水的“PH值”问题给消费者一个说法,并向记者反映了此事。
尹先生的要求合理吗?
康师傅矿物质水是真的“太酸”吗?
一、抽样调查及其特点
(一)抽样调查的概念
(一)抽样调查的概念第一节抽样推断概述指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会按照按照随机原则随机原则从调查对象(即总体)中抽取一从调查对象(即总体)中抽取一部分单位进行调查,用调查所得指标数值对调部分单位进行调查,用调查所得指标数值对调查对象相应指标数值作出具有一定可靠性的估查对象相应指标数值作出具有一定可靠性的估计和判断的一种统计调查方法。
计和判断的一种统计调查方法。
统计推断统计推断全及总体指标:
全及总体指标:
参数(未知量)参数(未知量)样本总体指标:
样本总体指标:
统统计量(已知量)计量(已知量)抽样推断随机原则的实现抽签法是将总体中每个单位的编号写在外形完全是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单选,签上的号码所对应的单位就是样本单位。
位。
随机数表法将总体中每个单位编上号码,然后使将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单用随机数表,查出所要抽取的调查单位。
位。
计算机模拟法是将随机数字编制为程序存储在计算是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数码,启用随机数字发生器输出随机数字,然后从总体中找到相应总体单位字,然后从总体中找到相应总体单位形成样本。
形成样本。
并非所有的抽样估计都按随机原并非所有的抽样估计都按随机原则抽取样本,也有非随机抽样则抽取样本,也有非随机抽样总体总体随机样本随机样本非随机样本非随机样本与总体分布与总体分布特征相同特征相同与总体分布与总体分布特征不同特征不同q按随机原则抽取样本单位q以样本的数量特征推断总体的数量特征q抽样推断产生抽样误差,但抽样误差可以事先计算并控制抽样推断的特点与全面调查相比,抽样调查既节省了人力、物与全面调查相比,抽样调查既节省了人力、物力、财力和时间,又达到了认识总体数量特征的目力、财力和时间,又达到了认识总体数量特征的目的。
的。
我国在我国在1994年确立了以周期性普查为基础,以年确立了以周期性普查为基础,以经常性抽样调整为主体,同时辅之以经常性抽样调整为主体,同时辅之以重点调查、科重点调查、科学核算等综合运用的统计调查方法体系。
学核算等综合运用的统计调查方法体系。
q不可能进行全面调查时有些事物在测量或试验时有破坏性,不可能进行全面调查.例如:
灯泡耐用时间试验,电视机抗震能力实验,人体白血球数量的化验等等.q不必要进行全面调查时例如:
了解某林区有多少树,鱼塘有多少条鱼等。
q用于生产过程的质量控制例如:
在产品成批或大量连续生产过程中,利用抽样调查可及时提供产品质量信息,进行质量控制。
抽样推断的应用抽样推断的应用q来不及进行全面调查时例如:
农产量全面调查的统计资料数字要等收割完毕以后一段时间才能得到,而抽样调查的统计数字在收获的同时就可以得到,一般能早两个月左右,这对于安排农产品的收购,储存和运输等都是有利的.q对全面调查资料进行补充修正时例如:
有些国家在人口和农业调查中,根据调查项目的粗细要求不同,分别进行普查和抽样调查,有这两种调查所得资料不但便于核对差错,而且可以满足不同的需要.二、抽样推断的基本概念全及总体抽样总体就是调查对象,又称总体或母体,是就是调查对象,又称总体或母体,是由许多性质相同的调查单位组成,常由许多性质相同的调查单位组成,常用用N表示全及总体的单位数目。
表示全及总体的单位数目。
又称样本或子样,是指从全及总体中又称样本或子样,是指从全及总体中按照随机原则抽取的那部分个体的组按照随机原则抽取的那部分个体的组合。
合。
抽样总体的单位数称为样本容抽样总体的单位数称为样本容量量,通常用,通常用n表示。
表示。
1nN。
n30称为大样本称为大样本,n30称为小样本称为小样本.n/N称为抽样比称为抽样比.例如:
在例如:
在100万户居民中,随机抽取万户居民中,随机抽取1000户居民进户居民进行家庭收支情况调查,其中的行家庭收支情况调查,其中的100万户居万户居民就是全民就是全及总体,而被抽中的及总体,而被抽中的1000户居民则构成抽样总体。
户居民则构成抽样总体。
抽样推断的基本概念根据全及总体各个单位的标志值或根据全及总体各个单位的标志值或标志特征所计算的反映总标志特征所计算的反映总体某种属体某种属性的综合指标,又称总体指标。
性的综合指标,又称总体指标。
全及指标全及指标主要有四个:
全及平均数总体是非标准差及方差总体标准差及方差全及成数是非标志总体是非标志总体分组分组单位数单位数变量值变量值具有某一属性具有某一属性不具有某一属性不具有某一属性10合计合计为研究是非标志总体的数量特征,令为研究是非标志总体的数量特征,令指总体中全部单位只具有“是”指总体中全部单位只具有“是”或“否”、“有”或“无”两种或“否”、“有”或“无”两种表现形式的标志,又叫表现形式的标志,又叫交替标志交替标志是非标志是非标志性别:
男、女(非男)产品质量:
合格、不合格10100N1NN是非标志总体的指标是非标志总体的指标具有某种标志表现的具有某种标志表现的单位数所占的成数单位数所占的成数不具有某种标志表现不具有某种标志表现的单位数所占的成数的单位数所占的成数指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重成数成数NNP1NNQ010101NNNNNNNNNQP且有是非标志总体的指标是非标志总体的指标平均数平均数标标准准差差PNNNNNfXfXP10101PQPQPQQPPQNNNPNPffXXp22010212201)(是非标志总体的指标是非标志总体的指标方差方差标准差系数标准差系数25.05.02max时,有当QPPPPQ12PQPPPPPXVPP11【例】【例】某厂某月份生产了某厂某月份生产了400400件产品,其中件产品,其中合格品合格品380380件,不合格品件,不合格品2020件。
求产品质件。
求产品质量分布的集中趋势与离中趋势。
量分布的集中趋势与离中趋势。
是非标志总体的指标是非标志总体的指标解解:
218.0)95.01(95.095.054002095400380203804000101PQPXNNQNNPNNNpP所以有:
,则件,件,件,己知设总体中个总体单位某项标志的标志值分别设总体中个总体单位某项标志的标志值分别为,其中具有某种属性的有个为,其中具有某种属性的有个单位,不具有某种属性的有个单位,则单位,不具有某种属性的有个单位,则总体平均数(又叫总体均值):
总体平均数(又叫总体均值):
NNXXX,210N1NmiimiiiNiiffXXNXX111或总体标准差:
总体标准差:
总体方差:
总体方差:
miiimiiNiifXXfXXN1211211或miiimiiNiifXXfXXN121212211或总体成数(全及成数):
总体成数(全及成数):
总体是非标志标准差:
总体是非标志标准差:
总体是非标志的方差:
总体是非标志的方差:
PNNQNNP1,01PQPPP1PQPPP12有最大值时,当PQP5.0设样本中个样本单位某项标志的标志值设样本中个样本单位某项标志的标志值分别为,其中具有和不具有某分别为,其中具有和不具有某种属性的样本单位数目分别为和个,则种属性的样本单位数目分别为和个,则样本平均数(又叫样本均值):
样本平均数(又叫样本均值):
又称样本指标、统计量。
指根据抽又称样本指标、统计量。
指根据抽样总体各个单位的标志值或标志特样总体各个单位的标志值或标志特征计算的综合指标,征计算的综合指标,它是随机变量它是随机变量。
抽样指标nnxxx,210n1nmiimiiiniiffxxnxx111或样本单位标志值的标准差:
样本单位标志值的标准差:
样本单位标志值的方差:
样本单位标志值的方差:
为自由度为自由度为的无偏估计为的无偏估计miiimiiniifxxfsxxns121121111或miiimiiniifxxfsxxns12121221111或2样本成数:
样本成数:
样本单位是非标志的标准差:
样本单位是非标志的标准差:
样本单位是非标志的方差:
样本单位是非标志的方差:
为为的的无偏估计无偏估计为为的的无偏估计无偏估计pnnqnnp1,01pqnnppnnsp111pqnnppnnsp11122PP抽样的基本方法重复抽样从总体从总体N个单位中随机抽取一个样本容个单位中随机抽取一个样本容量为量为n的样本,每次从总体中抽取一个的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重并把结果登记下来,又放回总体中重新参加下一次的抽选。
又称放回抽样新参加下一次的抽选。
又称放回抽样不重复抽样每次从总体中抽选一个单位后就不每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。
又再将其放回参加下一次的抽选。
又称不放回抽样称不放回抽样.总体单位数N不变,同一单位可能多次被抽中。
总体单位数减少n,同一单位只可能被抽中一次。
根据取样方式不同,可分为:
抽样方法的分类根据对样本的要求不同,可分为:
根据对样本的要求不同,可分为:
考虑顺序抽样考虑各单位的中选顺序。
考虑各单位的中选顺序。
ABCCBA例如:
从1,2,3三个数中取两个数排成一个两位数,显然十位数取1,个位数取2,和十位数取2,个位数取1是完全不同的.综合起来共有四种抽样方法考虑顺序的重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样不考虑顺序的重复抽样考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序抽样不考虑各单位的中选顺序。
不考虑各单位的中选顺序。
ABCCBA例如:
从三个产品中抽取两个进行质量检验,第一个选1号产品,第二个选2号产品组成一组,和第一个选2号产品,第二个选1号产品组成一组没有什么差别.样本的可能数目考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序的不重复抽样不考虑顺序的不重复抽样考虑顺序的重复抽样考虑顺序的重复抽样不考虑顺序的重复抽样不考虑顺序的重复抽样把填湖南风采把填湖南风采3535选选77福利彩票号码看作一福利彩票号码看作一次抽样,则它属于哪一种抽样?
中特等奖的次抽样,则它属于哪一种抽样?
中特等奖的概率是多少?
(概率是多少?
(0909选选66呢?
)呢?
)不考虑顺序的不重复抽样,不考虑顺序的不重复抽样,)!
/(!
nNNpnNnN1nNnC+-nNC8347680/1/1735C抽样调查的理论基础大数定律表明大量随机观象平均结果具有稳定性表明大量随机观象平均结果具有稳定性的性的性质。
质。
大数定律论证了如果独立随机变量总体大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的存在有限的平均数和方差,则对于充分大的样本可以近乎样本可以近乎100%的概率,期望样本平均的概率,期望样本平均数与总体平均数的绝对离差数与总体平均数的绝对离差为任意小。
为任意小。
抽样平均数和总体平均数的离差究竟有多大抽样平均数和总体平均数的离差究竟有多大?
离差离差不超过一定范围的概率究竟有多少不超过一定范围的概率究竟有多少?
这个离差的分这个离差的分布究竟怎样布究竟怎样?
1)(limXxPn总体密度曲线总体密度曲线:
样本容量越大,所分组数越多,各组的频率样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率设想样本容量无限就越接近于总体在相应各组取值的概率设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线接近于一条光滑曲线,这条曲线叫做总体密度曲线这条曲线叫做总体密度曲线它反映了总体在各个范围内取值的概率根据这条曲线,可它反映了总体在各个范围内取值的概率根据这条曲线,可求出总体在区间求出总体在区间(a,b)内取值的概率等于总体密度曲线,内取值的概率等于总体密度曲线,直线直线x=a,x=b及及x轴所围图形的面积轴所围图形的面积总体密度曲线b单位O频率/组距a概率密度函数概率密度函数0.0010.0090.0190.0650.130.1450.1920.1770.1470.0590.0360.0130.00700.050.10.150.20.2511.11.21.31.41.51.61.71.81.922.1其他00.0050.010.0150.020.025012300.020.040.060.080.10.1200.10.20.30.40.5中心极限定律如果变量总体存在有限的平均数和方如果变量总体存在有限的平均数和方差,那么不论这差,那么不论这个总体的分布如何,个总体的分布如何,随着样本容量的增加,样本平均数的随着样本容量的增加,样本平均数的分布,便趋近于正态分布。
分布,便趋近于正态分布。
一个任意分布的总体X当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布xxn样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理=50=10X总体分布总体分布n=4抽样分布抽样分布Xn=16当总体服从正态分布当总体服从正态分布N(,2)时,来自该总体的所时,来自该总体的所有容量为有容量为n的样本的均值的样本的均值X也服从正态分布,也服从正态分布,X的数学期望为的数学期望为,方差为,方差为2/n。
即。
即XN(,2/n)5x50x5.2x中心极限定理中心极限定理(centrallimittheorem)的分的分布趋布趋于正于正态分态分布的布的过程过程X第二节抽样分布样本统样本统计量计量总体未总体未知参数知参数样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量抽样分布抽样分布样本统计量所有可能值的样本统计量所有可能值的概率分布概率分布主要样本主要样本统计量统计量平均数比率(成数)方差平均数比率(成数)方差分布的形状及接近总体参数的程度xp2S抽样分布抽样分布从同一总体中,抽取样本容量相同从同一总体中,抽取样本容量相同的所有可能样本后,计算每个样本的所有可能样本后,计算每个样本统计量的取值和相应的概率,组成统计量的取值和相应的概率,组成样本统计量的概率分布。
样本统计量的概率分布。
(一)样本平均数的分布:
由总体中全部样本平均数的可能取值和与之相应的概率组成。
二、重复抽样分布注意:
统计量的取值不但和样本容量有关,而且和抽样方法注意:
统计量的取值不但和样本容量有关,而且和抽样方法有关,以下分别研究重复抽样和不重复抽样的抽样分布。
有关,以下分别研究重复抽样和不重复抽样的抽样分布。
样本的概率分布把某一抽样方法的全部可能的样本指标与其相把某一抽样方法的全部可能的样本指标与其相应的概率排列起来,就得到样本的概率分应的概率排列起来,就得到样本的概率分布。
布。
若将样本指标的取值分别记为若将样本指标的取值分别记为其相应的概率记为其相应的概率记为P1,P2,Pn,将它们按顺,将它们按顺序排列起来,可得如下概率分布表。
序排列起来,可得如下概率分布表。
.,21nxxxx1x2xnxnP)(xPnP1P2P学生成绩30405060708090按随机原则抽选出名学生,并计算平均分数。
平均数的抽样分布样本均值样本均值样本均值ABCDABCEABCFABCGABDEABDFABDGABEFABEGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBCDGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值4547.55052.55557.560出现次数1123445样本均值62.56567.57072.575出现次数443211二者均值相等00112230304040505060607070808090900011223344556645455050555560606565707075750011223030404050506060707080809090样本均值4547.55052.55557.560出现次数1123445离差-15-12.5-10-7.5-5-2.50样本均值62.56567.57072.575出现次数443211离差2.557.51012.515学生成绩30405060708090离差-30-20-1001020302007.7100214201747122nNnNx07.7x重复抽样下样本平均数的抽样分布性质:
q全部可能样本平均数的均值等于总体均值,即:
q从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。
q从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。
q样本均值的标准差为总体标准差的。
n1)()(XxXxE抽样平均数的标准差反映了样本平均数与总体平均数的抽样平均数的标准差反映了样本平均数与总体平均数的平均误差程度,因为平均误差程度,因为这一误差是由于抽样而产生的,故称为抽样平均误差以这一误差是由于抽样而产生的,故称为抽样平均误差以表示。
表示。
22)()(XxExExEnXnXx)()()(21.抽样平均误差比总体标准差小得多,仅为总体标准差的,所以用样本平均数来代表总体平均数是更有效的;2.抽样平均误差和总体标准差成正比变化,而和样本单位n的平方根成反比变化。
例如,在同一总体中,如果抽样平均误差允许增加一倍,则样本单位数只需要原来的1/4,如果样本容量扩大为原来的9倍,则抽样平均误差缩小2/3。
结论n/1抽样平均抽样平均误差误差指每一个可能样本的指标值与指每一个可能样本的指标值与总体指标值之间平均离差,即总体指标值之间平均离差,即一系列样本指标的标准差一系列样本指标的标准差式中:
为样本平均数的抽样平均误差;式中:
为样本平均数的抽样平均误差;为可能的样本数目;为第个可能样本的为可能的样本数目;为第个可能样本的平均数;为总体平均数平均数;为总体平均数注意:
不要混淆抽样注意:
不要混淆抽样标准差与样本标准差!
标准差与样本标准差!
MiixXxM121xiXixM1)(2nxxS
(二)抽样成数的分布对于是非标志总体,其总体平均数就是总体成数本身,,总体方差。
在总体中用重复抽样方法抽取个单位计算样本成数,则样本平均数分布的性质可以推广到抽样成数的分布,即有PXp)1()(2PPPPXpEp)(nPPnPpp)1()()()(抽样成数的分布q全部可能样本比率的均值等于总体成数,即:
q从非正态总体中抽取的样本成数,当n足够大时其分布接近正态分布。
q从正态总体中抽取的样本成数,不论容量大小其分布均为正态分布。
q样本成数的标准差为总体标准的。
5)1(,5)1,(pnnpnPPPNp)()(PpPpEn1样本抽样分布原总体分布X510xX抽样误差167CM169CM172CM160CM162CM167CM175CM180CM165CM167CM170CM175CM178CM180CM162CM173CM155CM160CM170CM165CM平均身高=169.8CM平均身高=174.6CM总平均身高=168.6CM三、不重复抽样分布
(一)样本平均数的分布例:
某次调查资料中4个被调查者的月消费为410元、450元、480元、500元,平均月消费为460元,方差1150,用不重复抽样方法抽取2个构成样本,并求样本平均月消费来推断总体的平均月消费。
样本平均月消费样本变量样本变量410450480500410450480500-430445455430-465475445465-490445475490-样本平均月消费分布样本日平均工资样本日平均工资(元)(元)频数频数频率频率4304454554654754902222222/122/122/122/122/122/12合计合计121460122*4902*4752*4652*4552*4452*430)(ffxxE33.383)()(22ffxExx?
58.1933.393)()(2xx?
不重复抽样下样本平均数的抽样分布性质:
1.全部可能样本平均数的均值等于总体均值,即:
2.抽样平均误差为重复抽样的平均误差乘以修正因子即XxE)(111Nn)111()()(2NnnXx抽样平均误差的计算不重复抽样与重复抽样的平均误差公式相比,多乘了一个修正系数(n/N),显然(n/N)小于,所以,不重复抽样的平均误差小于重复抽样的平均误差当很大,n相对很小时,(n/N)接近于,对平均误差影响不大因此,在实际工作中,一般按不重复抽样的方法抽取样本,而按重复抽样的公式计算抽样平均误差样本成数抽样分布教师是否博士是是否否否是具有博士学位的比率:
0.5比率的标准差:
0.5从总体中按重复抽样方法随机抽取人,计算其比率和标准差p样本成数抽样分布样本比率离差样本比率离差ABCDABCEABCFABDEABDFABEFACDEACDF0.50.50.750.50.750.750.250.5000.2500.250.25-0.250ACEFADEFBCDEBCDFBCEFBDEFCDEF0.50.50.250.50.50.50.2500-0.25000-0.25Pnpp5.0p5245.05.01)1(1581.015375.0)(2NnNnPPffppp全部可能样本成数的均值等于总体比率,即:
从非正态总体中抽取的样本成数当n足够大时其分布接近正态分布。
从正态总体中抽取的样本成数不论容量大小其分布均为正态分布。
样本成数的标准差为总体标准差的。
样本成数的抽样分布n1)()(PpPpE5)1(5)1(,(pnnpnPPPNp学生成绩60708090均值75方差125从中按重复抽样方式抽取人,计算样本的均值及方差S。
方差的抽样分布A60B70C80D90A60606060006070652550608070100200609075225450B707060652550707070007080752550709080100200C808060701002008070752550808080008090852550D90906075225450907080100200908085255090909000xnxxnxxSn22)
(1)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 抽样推断 第五 抽样 推断