第五章抽样推断.pptx
- 文档编号:18858139
- 上传时间:2024-02-01
- 格式:PPTX
- 页数:108
- 大小:1.15MB
第五章抽样推断.pptx
《第五章抽样推断.pptx》由会员分享,可在线阅读,更多相关《第五章抽样推断.pptx(108页珍藏版)》请在冰点文库上搜索。
5-1统计学统计学参数估计假设检验统计方法描述统计推断统计统计估计非参数估计5-2统计学统计学*第第55章抽样推断章抽样推断5.1抽样推断的一般问题抽样推断的一般问题5.2抽样误差抽样误差5.3参数估计参数估计5.4样本容量的确定样本容量的确定5-3统计学统计学*抽样推断的过程抽样推断的过程总体总体样样本本随机取样随机取样计算出样本计算出样本的均值、样的均值、样本比例、样本比例、样本方差本方差调调查查总体均值、总体比总体均值、总体比例、总体方差等例、总体方差等推断推断5-4统计学统计学*5.1抽样推断的一般问题抽样推断的一般问题5.1.1抽样推断的概念和特点抽样推断的概念和特点5.1.2抽样推断的基本范畴抽样推断的基本范畴5.1.3抽样分布抽样分布5-5统计学统计学*11、概念、概念抽样推断是在抽样调查的基础上,根据样本的情况来推断总体特抽样推断是在抽样调查的基础上,根据样本的情况来推断总体特征的一种统计分析方法。
征的一种统计分析方法。
22、抽样推断的特点、抽样推断的特点p按照随机原则抽取样本单位(样品);按照随机原则抽取样本单位(样品);p根据对样本的调查对总体做出推断;根据对样本的调查对总体做出推断;p抽样误差可以事先计算并加以控制。
抽样误差可以事先计算并加以控制。
33、抽样推断的适用场合、抽样推断的适用场合p无法进行全面调查时无法进行全面调查时;p进行全面调查有困难或不必要时进行全面调查有困难或不必要时;5.1.1抽样推断的概念和特点抽样推断的概念和特点5-6统计学统计学*1.抽样框和抽样单位抽样框和抽样单位
(1)总体和样本)总体和样本p总体也称母体,是所要研究的全部单位组成的整体。
总体也称母体,是所要研究的全部单位组成的整体。
一般用表示总体包括的总体单位数。
一般用表示总体包括的总体单位数。
p样本又称子样,它是从总体中随机抽取出来的一部分样本又称子样,它是从总体中随机抽取出来的一部分单位组成的整体。
一般用单位组成的整体。
一般用n表示样本包括的总体单位数表示样本包括的总体单位数。
p作为推断对象的总体是确定的,而且是唯一的;作为作为推断对象的总体是确定的,而且是唯一的;作为观察对象的样本不是确定的,也不是唯一的。
观察对象的样本不是确定的,也不是唯一的。
5.1.2抽样推断的基本范畴抽样推断的基本范畴5-7统计学统计学*
(2)抽样框:
)抽样框:
抽样框是包括全部总体单位的框架,以此代表总体,用抽样框是包括全部总体单位的框架,以此代表总体,用来从中抽取样本单位,具体表现形式有总体单位来从中抽取样本单位,具体表现形式有总体单位(或其或其集集合合)的名单或目录、地图、时间等。
的名单或目录、地图、时间等。
(3)抽样单位:
)抽样单位:
抽样单位是构成抽样框的基本要素,它可以是总体单位抽样单位是构成抽样框的基本要素,它可以是总体单位也可以是总体单位的集合。
也可以是总体单位的集合。
5-8统计学统计学*2.重复抽样和不重复抽样重复抽样和不重复抽样p重复抽样,也叫回置抽样重复抽样,也叫回置抽样/放回抽样,是指从总体的放回抽样,是指从总体的个单位中抽取一个容量为个单位中抽取一个容量为n的样本,每次抽出一个单的样本,每次抽出一个单位位后,再将其放回总体中参加下一次抽取,这样连续抽后,再将其放回总体中参加下一次抽取,这样连续抽n次次即得到一个样本。
即得到一个样本。
p不重复抽样,也叫不回置抽样不重复抽样,也叫不回置抽样/不放回抽样,是指抽不放回抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的中单位不再放回总体中,下一个样本单位只能从余下的抽样单位中抽取。
抽样单位中抽取。
5-9统计学统计学*3.样本容量和样本可能数目样本容量和样本可能数目p样本容量:
一个样本所包含的总体单位数,用样本容量:
一个样本所包含的总体单位数,用n表表示示,当样本容量大于等于,当样本容量大于等于30时称为大样本,小于时称为大样本,小于30时称时称为为小样本。
小样本。
p样本可能数目:
指按一定抽样方法和一定样本容量样本可能数目:
指按一定抽样方法和一定样本容量从总体中抽取样本时,所有可能的样本个数,一般用从总体中抽取样本时,所有可能的样本个数,一般用M表示。
表示。
5-10统计学统计学*n考虑顺序的重复抽样的样本可能数目:
考虑顺序的重复抽样的样本可能数目:
n考虑顺序的不重复抽样的样本可能数目:
考虑顺序的不重复抽样的样本可能数目:
样本可能数目的计算样本可能数目的计算nNM!
)(!
nNNPMnN5-11统计学统计学*n不考虑顺序的重复抽样的可能样本数目:
不考虑顺序的重复抽样的可能样本数目:
n不考虑顺序的不重复抽样的可能样本数目:
不考虑顺序的不重复抽样的可能样本数目:
客观现象中客观现象中常见的常见的)!
1(!
)!
1(1NnnNCMnnN!
)(!
nNnNCMnN5-12统计学统计学*4.参数和统计量参数和统计量p参数:
根据总体中各单位的变量值计算的、反映总体参数:
根据总体中各单位的变量值计算的、反映总体数量特征的特征值。
主要有总体均值、成数或比例、方数量特征的特征值。
主要有总体均值、成数或比例、方差。
差。
p统计量:
根据样本中各单位的变量值计算的、反映样统计量:
根据样本中各单位的变量值计算的、反映样本数量特征的特征值。
主要有样本均值、成数或比例、本数量特征的特征值。
主要有样本均值、成数或比例、方差。
方差。
p总体是确定的、唯一的,所以总体参数也是确定的、总体是确定的、唯一的,所以总体参数也是确定的、唯一的;样本是随机的,所以样本统计量是随机变量。
唯一的;样本是随机的,所以样本统计量是随机变量。
5-13统计学统计学*总体参数样总体参数样本统计量本统计量FXFNXXFF)XX(N)XX(222PXPfxfnxxpxp222()()iiiixxxxfSnf5-14统计学统计学*p样本统计量的概率分布;样本统计量的概率分布;p随机变量是样本统计量:
随机变量是样本统计量:
样本均值样本均值,样本比例,样本方差等样本比例,样本方差等p结果来自容量相同的所有可能样本;结果来自容量相同的所有可能样本;p提供了样本统计量的分布特征,是进行推断的提供了样本统计量的分布特征,是进行推断的理论基础,也是抽样推断科学性的重要依据。
理论基础,也是抽样推断科学性的重要依据。
5.1.3抽样分布抽样分布(samplingdistribution)5-15统计学统计学*抽样分布的形成抽样分布的形成(samplingdistribution)总体总体计算样本统计量计算样本统计量:
样本均值、比:
样本均值、比例、方差例、方差样样本本5-16统计学统计学*1.形成过程形成过程p从单位数为从单位数为N的总体中抽取样本容量为的总体中抽取样本容量为n的随机样的随机样本本,在重复抽样的条件下,共有,在重复抽样的条件下,共有Nn个可能的样本,在不个可能的样本,在不重复抽样条件下,共有重复抽样条件下,共有PNn个可能样本;个可能样本;p对于每一个样本,我们都可以计算出样本的均值;对于每一个样本,我们都可以计算出样本的均值;p将所有可能样本的样本均值根据其取值形成概率分将所有可能样本的样本均值根据其取值形成概率分布布,即可得到样本均值的抽样分布,它是推断总体均值即可得到样本均值的抽样分布,它是推断总体均值的理论基础。
的理论基础。
(一)样本均值的抽样分布
(一)样本均值的抽样分布5-17统计学统计学*【例】设一个总体,总体单位数【例】设一个总体,总体单位数N=4。
4个单位某一个单位某一标志值的取值分别为标志值的取值分别为x1=1、x2=2、x3=3、x4=4。
总体的均值、方差及分布如下:
总体的均值、方差及分布如下:
总体分布总体分布14230.1.2.3均值和方差均值和方差5.21NXXNii25.1)(122NXXNii5-18统计学统计学*现从总体中抽取现从总体中抽取n2的简单随机样本,在重复抽的简单随机样本,在重复抽样条件下,共有样条件下,共有16个样本。
所有样本的结果为:
个样本。
所有样本的结果为:
3,43,43,33,33,23,23,13,1332,42,42,32,32,22,22,12,1224,44,44,34,34,24,24,14,1441,41,4441,31,33322111,21,21,11,111第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的nn=2=2的样本(共的样本(共1616个)个)5-19统计学统计学*计算出各样本的均值,并给出样本均值的抽样分布:
计算出各样本的均值,并给出样本均值的抽样分布:
3.53.53.03.02.52.52.02.0333.03.02.52.52.02.01.51.5224.04.03.53.53.03.02.52.5442.52.5442.02.03322111.51.51.01.011第二个观察值第二个观察值第一个第一个观察值观察值1616个样本的均值(个样本的均值(xx)x样本均值的抽样分布样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.55-20统计学统计学*2.样本均值的数字特征样本均值的数字特征222221.01.5.4.0E()2.5M16()M(1.02.5).(4.02.5)0.62516nxxxXxX5-21统计学统计学*证明:
11221221211()().11()()niniiininiiixxExEExnXXnnnxVxVVxnnnnnnn5-22统计学统计学*X=2.52=1.25总体分布总体分布14230.1.2.3抽样分布抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5XxP(x)结论:
结论:
1.1.样本均值的均值样本均值的均值(数学期望数学期望)等于总体均等于总体均值;值;2.2.样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/n1/n。
5.2)(xE625.02x5-23统计学统计学*样本均值的数学期望:
样本均值的数学期望:
样本均值的方差:
样本均值的方差:
不重复抽样条件下:
不重复抽样条件下:
XxE)(122NnNnx5-24统计学统计学*样本均值的抽样分布样本均值的抽样分布=50=10X总体分布总体分布n=4抽样分布抽样分布Xn=16当总体服从正态分布当总体服从正态分布N(,2)时,来自该总体的所有时,来自该总体的所有容量为容量为n的样本的均值的样本的均值x也服从正态分布,且其数也服从正态分布,且其数学期望为学期望为,方差为,方差为2/n。
即。
即xN(,2/n)5x5.2x()50Ex=5-25统计学统计学*中心极限定理中心极限定理(centrallimittheorem)当样本容量足当样本容量足够大时够大时(n(n30)30),样本均,样本均值的抽样分布值的抽样分布逐渐趋于正态逐渐趋于正态分布分布中心极限定理:
设从均值为中心极限定理:
设从均值为,方差为,方差为2的一个任意总的一个任意总体中抽取容量为体中抽取容量为n的样本,当的样本,当n充分大时,样本均值的充分大时,样本均值的抽样分布近似服从均值为抽样分布近似服从均值为、方差为、方差为2/n的正态分布。
的正态分布。
一个任一个任意分布意分布的总体的总体Xx5-26统计学统计学*的分布趋于正态分布的过程的分布趋于正态分布的过程X5-27统计学统计学*总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本正态分布正态分布正态分布正态分布非正态分布非正态分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布与总体分布的关系样本均值的抽样分布与总体分布的关系5-28统计学统计学*总体总体(或样本或样本)中具有某种属性的单位与全部单位总中具有某种属性的单位与全部单位总数数之比:
之比:
n不同性别的人数与全部人数之比不同性别的人数与全部人数之比n合格品合格品(或不合格品或不合格品)与全部产品总数之比与全部产品总数之比总体比例表示为总体比例表示为样本比例表示为样本比例表示为
(二)样本成数(比例)的抽样分
(二)样本成数(比例)的抽样分布布NNPNNP101或nnpnnp101或5-29统计学统计学*样本比例的抽样分布样本比例的抽样分布容量相同的所有可能样本的样本比例的概率分布,当容量相同的所有可能样本的样本比例的概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布样本容量很大时,样本比例的抽样分布可用正态分布近似。
近似。
样本比例的数学期望:
样本比例的数学期望:
样本比例的方差样本比例的方差n重复抽样:
重复抽样:
n不重复抽样:
不重复抽样:
PpE)(nPPP)1(21)1(2NnNnPPP5-30统计学统计学*22(,),01,1lim.2ntxnnXbnppXnpPxedtnpq则棣莫弗拉普拉斯:
n定理表明,当充分大时,二项分布可用正态分布来近似。
5-31统计学统计学*5.2抽样误差抽样误差5.2.1抽样误差抽样误差5.2.2抽样平均误差抽样平均误差5-32统计学统计学*1、概念、概念抽样误差是指由于随机抽样的偶然因素使样本单位不足抽样误差是指由于随机抽样的偶然因素使样本单位不足以代表总体单位,而引起的样本统计量和总体参数之间以代表总体单位,而引起的样本统计量和总体参数之间的绝对离差。
()的绝对离差。
()2、影响因素、影响因素p总体单位标志值的离散程度;总体单位标志值的离散程度;p样本容量的大小(样本容量的大小(n););p抽样方法(重复抽样抽样方法(重复抽样/不重复抽样);不重复抽样);p抽样调查的组织方式(简单随机抽样抽样调查的组织方式(简单随机抽样/分层抽样分层抽样/等距等距抽样抽样/整群抽样)。
整群抽样)。
5.2.1抽样误差抽样误差,xXpP5-33统计学统计学*11、所有可能样本统计量与总体参数的平均离差。
、所有可能样本统计量与总体参数的平均离差。
22、理论计算公式为:
、理论计算公式为:
上式可以变换为:
上式可以变换为:
5.2.2抽样平均误差(标准误)抽样平均误差(标准误)由此,样本均值的抽样平均误差就是样本均值的标准差。
由此,样本均值的抽样平均误差就是样本均值的标准差。
M)Pp(p2M)p(Epp22x(x)MX2x(xE(x)M5-34统计学统计学*33、抽样平均误差的计算公式:
、抽样平均误差的计算公式:
(11)重复抽样条件下)重复抽样条件下(22)不重复抽样条件下)不重复抽样条件下2xnnn)P(Pnp122xNn()nN11)1(NnNnPPp5-35统计学统计学*在总体单位数很大的情况下,可近似表示为:
在总体单位数很大的情况下,可近似表示为:
22xNnn()
(1)nNnN)Nn(n)P(Pp115-36统计学统计学*抽样推断的标准误差抽样推断的标准误差(standarderror)p样本统计量的标准差,称为统计量的标准误,也样本统计量的标准差,称为统计量的标准误,也称为标准误差称为标准误差;p衡量统计量的离散程度,测度了用样本统计量估衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度计总体参数的精确程度;p当总体标准差当总体标准差未知时,可用样本标准差未知时,可用样本标准差ss代代替,替,在重复抽样条件下,样本均值的标准误差为在重复抽样条件下,样本均值的标准误差为nsx5-37统计学统计学*可以通过调整样本单位数可以通过调整样本单位数nn来控制抽样平均误差。
例来控制抽样平均误差。
例如,将样本容量增加如,将样本容量增加33倍,则平均误差就缩小一半;倍,则平均误差就缩小一半;而抽样平均误差减少而抽样平均误差减少20%20%,则样本容量就需要原来的,则样本容量就需要原来的1.561.56倍。
倍。
nx21214nnx22nnn56.164.01%802222)(56.1倍nn5-38统计学统计学*5.3参数估计参数估计5.3.1抽样推断的内容抽样推断的内容5.3.2点估计点估计5.3.3区间估计区间估计5-39统计学统计学*11、参数估计、参数估计p依据所获得的样本数据,对总体的数量特征进行估计的推断方依据所获得的样本数据,对总体的数量特征进行估计的推断方法称为参数估计,即根据样本统计量来估计总体参数。
法称为参数估计,即根据样本统计量来估计总体参数。
p参数估计包括的内容:
如确定估计值,确定估计的优良标准;参数估计包括的内容:
如确定估计值,确定估计的优良标准;确定估计值和被估计参数之间的误差范围以及在一定误差范围内确定估计值和被估计参数之间的误差范围以及在一定误差范围内所作推断的可靠性程度等。
所作推断的可靠性程度等。
22、假设检验、假设检验p先对总体的数量特征作某种假设,再根据样本数据对所作假设先对总体的数量特征作某种假设,再根据样本数据对所作假设进行检验。
进行检验。
p假设检验包括的内容:
确定原假设与备择假设;选择检验统计假设检验包括的内容:
确定原假设与备择假设;选择检验统计量;确定显著性水平;做出决策。
量;确定显著性水平;做出决策。
5.3.1抽样推断的内容抽样推断的内容5-40统计学统计学*5.3.2点估计点估计(pointestimate)11、定义:
用样本统计量的值直接作为总体参数的估计、定义:
用样本统计量的值直接作为总体参数的估计值,称为总体参数的点估计值,称为总体参数的点估计22、优点:
简便、易行、优点:
简便、易行33、缺点:
没有考虑抽样误差的大小;没有给出估计值、缺点:
没有考虑抽样误差的大小;没有给出估计值接近总体参数的程度;没有考虑估计的概率保证程度。
接近总体参数的程度;没有考虑估计的概率保证程度。
5-41统计学统计学*估计量与估计值估计量与估计值(estimator&estimatedvalue)估计量:
用于估计总体参数的样本统计量的名称;估计量:
用于估计总体参数的样本统计量的名称;n如样本均值、样本比例如样本均值、样本比例(成数成数)、样本方差等、样本方差等n参数用参数用表示,估计量用表示表示,估计量用表示估计值:
根据样本资料得出的估计量的具体取值估计值:
根据样本资料得出的估计量的具体取值n如果样本均值如果样本均值x=80x=80,则,则8080就是估计值就是估计值22xXpPS5-42统计学统计学*评价估计量的优良标准评价估计量的优良标准无偏性:
估计量的数学期望等于被估计的总体参数无偏性:
估计量的数学期望等于被估计的总体参数P()BA无偏无偏有偏有偏总体参数总体参数XxE)(PpE)(215-43统计学统计学*有效性:
对同一总体参数的两个无偏估计量,有更小有效性:
对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。
标准差的估计量更有效。
AB的抽样分布的抽样分布的抽样分的抽样分布布P()比比更有效更有效12125-44统计学统计学*一致性:
随着样本容量的增大,估计量的值越来越一致性:
随着样本容量的增大,估计量的值越来越接近被估计的总体参数。
接近被估计的总体参数。
大数定律已经证明了:
样本平均数和样本成数都满大数定律已经证明了:
样本平均数和样本成数都满足一致性:
足一致性:
nlimp1nnlimp1limp1NNxXpP5-45统计学统计学*1、定义:
在点估计的基础上,指出总体参数的上限和下限,即指出总体参数可能存在的区间范围,并指出总体参数落在这一区间的置信水平。
区间估计的三个要素:
p点估计值p总体参数与点估计值的抽样误差范围(抽样极限误差)p置信水平/概率保证程度(1-)5.3.3区间估计区间估计1P5-46统计学统计学*22、区间估计的一对矛盾:
、区间估计的一对矛盾:
准确性(精度):
在点估计的基础上,给出总体参数估准确性(精度):
在点估计的基础上,给出总体参数估计的一个区间范围,称为置信区间,该区间由样本统计计的一个区间范围,称为置信区间,该区间由样本统计量加减一个误差范围而得到:
量加减一个误差范围而得到:
样本统计量值样本统计量值(点估计点估计)置信区间置信区间置信下限置信下限置信上限置信上限xxppxxppXP5-47统计学统计学*抽样极限误差抽样极限误差抽样极限误差是根据统计研究任务要求确定的可允许的抽样极限误差是根据统计研究任务要求确定的可允许的最大抽样误差范围,它等于总体参数可允许变动的上限最大抽样误差范围,它等于总体参数可允许变动的上限或下限与样本统计量的绝对离差。
或下限与样本统计量的绝对离差。
我们总是希望估计的准确性越高越好,即估计精度尽可我们总是希望估计的准确性越高越好,即估计精度尽可能的高,也就是希望置信区间越窄越好,或者抽样极限能的高,也就是希望置信区间越窄越好,或者抽样极限误差越小越好。
误差越小越好。
|Xxx|Pp|p5-48统计学统计学*(22)可靠性(置信水平)可靠性(置信水平/概率保证程度):
总体参数概率保证程度):
总体参数落落在置信区间内的概率,即样本统计量与总体参数的误差在置信区间内的概率,即样本统计量与总体参数的误差不超过抽样极限误差的概率。
不超过抽样极限误差的概率。
样本统计量的抽样分布能够根据样本统计量与总体参样本统计量的抽样分布能够根据样本统计量与总体参数的接近程度给出相应的概率度量:
两者越接近概率越数的接近程度给出相应的概率度量:
两者越接近概率越小,差异越大概率越大。
小,差异越大概率越大。
5-49统计学统计学*表示为表示为(1-)%n为总体参数落在区间内的概率为总体参数落在区间内的概率常用的置信水平为常用的置信水平为99%,95%,90%n相应的相应的为为0.01,0.05,0.10置信水平的表示置信水平的表示(confidencelevel)5-50统计学统计学*抽样推断时,我们总是希望估计的误差范围尽可能的小抽样推断时,我们总是希望估计的误差范围尽可能的小,即抽样精度尽可能的高,并且估计的置信水平也尽可,即抽样精度尽可能的高,并且估计的置信水平也尽可能的大,但事实上这两者是矛盾的:
在其他条件不变的能的大,但事实上这两者是矛盾的:
在其他条件不变的情况下,提高估计的置信水平,就会增大抽样极限误差情况下,提高估计的置信水平,就会增大抽样极限误差(降低估计的精度);提高估计的精度,就会减小置信(降低估计的精度);提高估计的精度,就会减小置信水平。
所以在区间估计中,我们只能对准确性和可靠性水平。
所以在区间估计中,我们只能对准确性和可靠性中的一个提出要求,来推求另一要素的情况,事实上抽中的一个提出要求,来推求另一要素的情况,事实上抽样极限误差与置信水平之间存在一一对应的关系,知道样极限误差与置信水平之间存在一一对应的关系,知道其中一个可以求另外一个。
其中一个可以求另外一个。
准确性与可靠性的关系准确性与可靠性的关系5-51统计学统计学*标准正态分布标准正态分布(standardizenormaldistribution)3.3.标准正态分布标准正态分布的概率密度函数:
的概率密度函数:
1.1.随机变量具有均值为随机变量具有均值为00,标准差为,标准差为11的正态分布;的正态分布;2.2.任何一个任何一个一般的正态分布,可通过下面的线性变换转化一般的正态分布,可通过下面的线性变换转化为标准正态分布;为标准正态分布;4.4.标准正态分布标准正态分布的分布函数;的分布函数;xxx,e21)(22)1,0(NXZxtxttxxde21d)()(2-25-52统计学统计学*标准正态分布概率图示标准正态分布概率图示90%的的x99.73%的的x95%的的xx65.165.13396.196.105-53统计学统计学一般正态分布的密度函数一般正态分布的密度函数f(x)=随机变量随机变量X的频率的频率=随机变量随机变量X的均值的均值=随机变量随机变量X的方差的方差=3.1415926=3.1415926;e=2.718282.71828xxfx,e21)(222125-54统计学统计学一般正态分布概率图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 抽样 推断