05参数估计基础共16页.docx
- 文档编号:15097008
- 上传时间:2023-06-30
- 格式:DOCX
- 页数:30
- 大小:67.49KB
05参数估计基础共16页.docx
《05参数估计基础共16页.docx》由会员分享,可在线阅读,更多相关《05参数估计基础共16页.docx(30页珍藏版)》请在冰点文库上搜索。
05参数估计基础共16页
第五章参数估计基础
教师范读的是阅读教学中不可缺少的部分,我常采用范读,让幼儿学习、模仿。
如领读,我读一句,让幼儿读一句,边读边记;第二通读,我大声读,我大声读,幼儿小声读,边学边仿;第三赏读,我借用录好配朗读磁带,一边放录音,一边幼儿反复倾听,在反复倾听中体验、品味。
[教学要求]
一般说来,“教师”概念之形成经历了十分漫长的历史。
杨士勋(唐初学者,四门博士)《春秋谷梁传疏》曰:
“师者教人以不及,故谓师为师资也”。
这儿的“师资”,其实就是先秦而后历代对教师的别称之一。
《韩非子》也有云:
“今有不才之子……师长教之弗为变”其“师长”当然也指教师。
这儿的“师资”和“师长”可称为“教师”概念的雏形,但仍说不上是名副其实的“教师”,因为“教师”必须要有明确的传授知识的对象和本身明确的职责。
了解:
通过电脑实验了解抽样分布及t分布的特征,了解查表法估计总体概率的置信区间。
课本、报刊杂志中的成语、名言警句等俯首皆是,但学生写作文运用到文章中的甚少,即使运用也很难做到恰如其分。
为什么?
还是没有彻底“记死”的缘故。
要解决这个问题,方法很简单,每天花3-5分钟左右的时间记一条成语、一则名言警句即可。
可以写在后黑板的“积累专栏”上每日一换,可以在每天课前的3分钟让学生轮流讲解,也可让学生个人搜集,每天往笔记本上抄写,教师定期检查等等。
这样,一年就可记300多条成语、300多则名言警句,日积月累,终究会成为一笔不小的财富。
这些成语典故“贮藏”在学生脑中,自然会出口成章,写作时便会随心所欲地“提取”出来,使文章增色添辉。
熟悉:
理解抽样误差的概念;熟悉标准误的意义及其应用。
掌握:
会计算均数及频率的标准误;掌握总体均数95%和99%置信区间的计算及适用条件;掌握正态近似法计算总体概率的95%和99%置信区间及适用条件;阐述标准差与均数标准误的区别。
[重点难点]
第一节抽样误差与标准误
一、均数(频率)的抽样分布及抽样误差
基本概念:
在同一总体中反复多次随机抽取样本含量相同的若干样本,由于个体差异与偶然性的影响,样本统计量之间以及样本统计量与总体参数之间的差异,称为抽样误差。
这种由抽样造成的均数之间的差异称为均数的抽样误差,频率之间以及频率与概率之间的差异称为频率的抽样误差。
特点:
从正态分布N(μ,σ2)总体中抽样,样本均数
仍服从正态分布;从非正态分布总体抽样,只要μ
样本量足够大(n≥50),样本均数的分布也近似于正态分布。
在抽样研究中,抽样误差是不可避免的。
用来表示抽样误差大小的指标称为标准误。
二、标准误
(一)均数标准误
意义:
均数标准误用符号
表示,也称样本均数的标准差。
它反映了样本均数之间、样本均数与总体均数之间的离散程度,也反映了样本均数抽样误差的大小。
计算:
可按公式
计算。
在实际应用中,总体标准差σ常常未知,需要用样本标准差s来估计。
此时,均数标准误的估计值为
。
由此式可见,若增加样本含量n可以减小样本均数的抽样误差。
主要应用:
①估计总体均数的置信区间;②均数的假设检验。
在指标的意义、计算及结果解释方面注意与标准差区别,不能将两者混淆。
(二)频率的标准误
意义:
频率的标准误用符号σp表示,它反映了样本频率与样本频率之间、样本频率与总体概率之间的离散程度,也反映了样本频率抽样误差的大小。
计算:
可按公式σp=
计算。
在实际应用中,总体概率π常常未知,需要用样本频率p作为总体概率π的估计值,因此频率的标准误的估计值为
。
由此式可见,增加样本含量n可以减小样本频率的抽样误差。
主要应用:
①估计总体概率的置信区间;②频率指标的假设检验。
第二节t分布
一、t分布的概念
服从自由度ν=n-1的t分布。
t分布是总体均数的区间估计及假设检验的理论基础。
二、t分布的图形与曲线下面积分布规律
t分布与标准正态分布相比,其分布密度有如下特征:
①单峰分布,以0为中心,左右对称;②自由度ν越小,则
越大,t值越分散,曲线的峰部越矮,尾部越高;③自由度ν逐渐增大时,t分布逐渐逼近标准正态分布;当ν趋于∞时,t分布就完全成为标准正态分布。
按t分布的规律,密度曲线下面积分布规律为:
单侧:
P(t≤-tα,ν)=α或P(t≥tα,ν)=α
双侧:
P(t≤-tα/2,ν)+P(t≥tα/2,ν)=α
第三节总体均数及总体概率的估计
一、参数估计的概念
参数估计是指用样本指标(统计量)估计总体指标(参数)。
参数估计有点估计和区间估计两种。
(一)点估计
直接用随机样本的样本均数
作为总体均数μ的估计值或用样本频率p作为总体概率π的估计值的方法称为点估计。
这是一种没有考虑抽样误差的简单估计方法。
(二)区间估计
用已知样本统计量和标准误确定总体参数所在范围的方法称为区间估计。
所估计的总体参数的范围通常称为参数的置信区间(confidenceinterval,CI),这一估计可相信的程度称为置信度或置信水平(如95%或99%)。
若标准差不变,置信度由95%提高到99%,置信区间便由窄变宽,估计的精度下降。
二、置信区间的计算
(一)正态分布总体均数的置信区间
总体均数置信区间的基本公式是
±tα/2,ν
。
样本量较大时,可以是
±Zα/2
或
±Zα/2
(若总体标准差已知)。
实际工作中,估计总体均数置信区间时,要注意与参考值范围区别,见《卫生统计学》教材表5-4中内容。
(二)二项分布总体概率的置信区间
根据样本含量n和样本频率p的大小,可以采用查表法和正态近似法。
重点掌握正态近似法。
正态近似法:
当n足够大,且样本频率p和(1-p)均不太小时,如np与n(1-p)均大于5,p的抽样分布接近正态分布,此时总体概率的置信区间为(p-Zα/2Sp,p+Zα/2Sp),缩写为p±Zα/2Sp。
[案例讨论参考答案]
(1)根据专业知识和《卫生统计学》第五章表5.3中的200名正常成年人血铅值的频数分布可知该资料属于正偏峰分布。
用正态分布法
+1.64S估计正常成年人血铅值的95%参考值范围不合适,因为算术均数
常用于描述正态资料的平均水平,而
+1.64S是以正态曲线下面积的分布规律估计正态资料95%的观察值所在范围单侧上界。
对于正偏峰分布的资料,一般用中位数M或几何均数G来描述其平均水平,并用百分位数法或将数据经对数变换后用正态分布法来估计正常成年人血铅值的95%参考值范围。
本资料用百分位数法计算,得到正常成年人血铅值的95%参考值范围单侧上界为
(μg/100g)。
(2)本例用公式
+1.64
估计正常成年人平均血铅含量的95%置信区间单侧上界是合适的。
因为从非正态总体抽样,当样本量足够大时(例如,n≥50),样本均数的分布近似于正态分布。
本资料属正偏峰分布,但样本量较大n=200,故可用正态近似法估计总体均数的置信区间。
[电脑实验程序及结果解释]
1.实验5-1正态总体样本均数的分布
程序5-1正态总体样本均数的抽样分布
01
DATAa;
建立sas数据集a;
02
ARRAYx(100)x1-x100;
说明数组变量x,其元素包括x1~x100;
03
DOi=1TO100;
设立循环,循环变量i从1增加到100,每次加1;
04
DOj=1TO100;
设立循环,循环变量j从1增加到100,每次加1;
05
x(j)=155.4+5.3*RANNOR(0);
从正态总体(155.4,5.32)中随机抽取1个数;
06
END;
结束循环;
07
m30=MEAN(OFx1-x30);
计算x1~x30的均数;
08
OUTPUT;
将x1~x100和m30写入数据集a;
09
END;
结束循环;
10
PROCPRINT;
在Output窗口输出数据集a;
11
VARm30;
指定只输出变量m30的值;
12
RUN;
运行上述程序;
13
DATAfa;
新建数据集fa;
14
SETa(KEEP=m30);
继承数据集a的数据(只保留m30);
15
IFm30<153.2THENy=152.9;
若m30<153.2,则y为152.9(组中值);
16
IFm30<153.8&m30>=153.2THENy=153.5;
若m30在153.2~组段,则y为153.5;
17
IFm30<154.4&m30>=153.8THENy=154.1;
若m30在153.8~组段,则y为154.1;
18
IFm30<155.0&m30>=154.4THENy=154.7;
若m30在154.4~组段,则y为154.7;
19
IFm30<155.6&m30>=155.0THENy=155.3;
若m30在155.0~组段,则y为155.3;
20
IFm30<156.2&m30>=155.6THENy=155.9;
若m30在155.6~组段,则y为155.9;
21
IFm30<156.8&m30>=156.2THENy=156.5;
若m30在156.2~组段,则y为156.5;
22
IFm30<157.4&m30>=156.8THENy=157.1;
若m30在156.8~组段,则y为157.1;
23
IFm30<158.0&m30>=157.4THENy=157.7;
若m30在157.4~组段,则y为157.7;
24
IFm30>158.0THENy=158.3;
若m30>158.0,则y为158.3;
25
PROCUNIVARIATEfreq;
调用UNIVARIATE过程进行统计描述;
26
VARy;
指定变量y;
27
PROCGCHART;
调用GCHART过程绘直方图;
28
VBARm30/MIDPOINTS=152.0TO159.0BY0.5SPACE=0;
指定绘图变量m30,设定组中值从152到159,组距为0.5,条间距为0;
29
RUN;
运行;
运行结果:
Output窗口:
100个样本均数(n=30):
Obs
m30
Obs
m30
Obs
m30
Obs
m30
1
155.566
26
155.303
51
154.831
76
156.039
2
156.073
27
154.859
52
154.150
77
155.289
3
155.573
28
156.351
53
154.195
78
154.539
4
156.877
29
155.163
54
155.410
79
155.373
5
154.072
30
155.958
55
155.148
80
156.270
6
155.281
31
155.552
56
155.503
81
154.373
7
156.617
32
155.933
57
156.378
82
155.093
8
154.219
33
156.443
58
155.360
83
156.864
9
157.001
34
156.406
59
155.401
84
155.981
10
154.984
35
156.258
60
154.820
85
155.147
11
155.565
36
155.881
61
155.281
86
153.981
12
153.371
37
154.721
62
155.562
87
156.228
13
154.917
38
154.955
63
155.677
88
156.256
14
154.613
39
155.249
64
156.439
89
154.711
15
155.965
40
154.421
65
155.171
90
156.133
16
155.086
41
156.643
66
155.876
91
155.100
17
154.172
42
155.201
67
155.272
92
155.710
18
155.190
43
155.491
68
157.007
93
155.595
19
154.756
44
155.032
69
156.525
94
155.673
20
156.004
45
154.847
70
155.074
95
155.782
21
156.373
46
155.557
71
156.847
96
156.277
22
156.776
47
155.421
72
154.521
97
156.501
23
155.747
48
155.222
73
156.263
98
154.651
24
154.141
49
153.304
74
155.639
99
154.994
25
156.038
50
155.863
75
156.307
100
154.571
变量y的统计描述:
Moments
N样本量100SumWeights权重和100
Mean均数155.48SumObservations变量值之和15548
StdDeviation标准差0.83774589Variance方差0.70181818
Skewness偏度系数-0.0545278Kurtosis峰度系数-0.4661974
UncorrectedSS变量平方和2417472.52CorrectedSS变量离均差平方和69.48
CoeffVariation变异系数0.53881264StdErrorMean标准误0.08377459
BasicStatisticalMeasures
LocationVariability
Mean均数155.4800StdDeviation标准差0.83775
Median中位数155.3000Variance方差0.70182
Mode众数155.3000Range全距3.60000
InterquartileRange四分位数间距1.20000
TestsforLocation:
Mu0=0
Test-Statistic------pValue------
udent'st总体均数为0的t检验t1855.933Pr>|t|<.0001
Sign总体集中位置为0的符号检验M50Pr>=|M|<.0001
SignedRank总体中位数为0的符号秩和检验S2525Pr>=|S|<.0001
Quantiles(Definition5)
Quantile百分位数Estimate估计值
100%Max最大值157.1
99%第99百分位数157.1
95%第95百分位数156.8
90%第90百分位数156.5
75%Q3第75百分位数(第3四分位数)155.9
50%Median第50百分位数(中位数)155.3
25%Q1第25百分位数(第1四分位数)154.7
10%第10百分位数154.4
5%第5百分位数154.1
1%第1百分位数153.5
0%Min最小值153.5
ExtremeObservations极端值
-----Lowest----最小的5个数----Highest----最大的5个数
Value值
Obs序号
Value值
Obs序号
153.5
49
157.1
4
153.5
12
157.1
9
154.1
86
157.1
68
154.1
81
157.1
71
154.1
53
157.1
83
FrequencyCounts
Percents频率PercentsPercents
Value变量值Count频数CellCum累积ValueCountCellCumValueCountCellCum
153.522.02.0155.33232.059.0156.51818.095.0
154.188.010.0155.91818.077.0157.155.000.0
154.71717.027.0
Graph窗口:
m30的频数分布直方图:
2.实验5-2非正态总体样本均数的分布
程序5-2非正态总体样本均数的分布
01
dataa;
建立数据集a;
02
don=5,10,30,50;
设立4次循环,n分别取值为5、10、30和50;
03
doi=1TO1000;
设立1000次的循环;
04
mm=0;
均数变量初始化为0;
05
doj=1TOn;
设立n次循环,j从1递增到n;
06
x=ranexp(0);
抽取服从指数分布的1个随机数;
07
mm=mm+x/n;
计算均数;
08
end;
n次循环结束;
09
output;
将数据写入数据集;
10
end;
结束1000次循环;
11
end;
结束循环;
12
procprint;
输出数据集a的内容;
13
procgchart;
调用GCHART过程绘个体分布直方图;
14
vbarx/type=pctmidpoints=0to5by0.1axis=30space=0;
指定用x的频率绘图,设定组中值从0到5,组距为0.1,固定纵高为30,条间距为0;
15
procgchart;
调用GCHART过程绘均数分布直方图;
16
vbarmm/type=pctmidpoints=0to5by0.1axis=30space=0;
指定用mm的频率绘图,设定组中值从0到5,组距为0.1,固定纵高为30,条间距为0;
17
byn;
按变量n分组绘图;
18
run;
运行;
运行结果:
Output窗口:
抽样数据结果(数据太多,仅显示部分)
Obs
n
i
mm
j
x
Obs
n
i
mm
j
x
1
5
1
1.84022
6
2.19176
1001
10
1
0.62273
11
0.60295
2
5
2
1.08212
6
1.05054
1002
10
2
0.96270
11
2.34789
3
5
3
0.36275
6
0.76245
1003
10
3
1.17775
11
4.50242
4
5
4
2.65145
6
1.85790
1004
10
4
0.74641
11
0.51284
5
5
5
0.83652
6
0.06503
1005
10
5
0.52092
11
1.75401
6
5
6
0.58379
6
2.18046
1006
10
6
0.92931
11
0.07906
7
5
7
1.10407
6
3.22935
1007
10
7
0.99619
11
1.99275
8
5
8
0.76165
6
0.37984
1008
10
8
1.02918
11
1.36452
9
5
9
1.05458
6
0.47120
1009
10
9
1.67199
11
4.86656
10
5
10
1.47626
6
1.31020
1010
10
10
0.89973
11
0.80916
…
…
…
…
…
…
…
…
…
…
…
…
2020
30
20
1.10346
31
0.66435
3020
50
20
1.06641
51
0.15404
2021
30
21
1.14145
31
0.38151
3021
50
21
1.02780
51
1.99582
2022
30
22
0.78598
31
0.61992
3022
50
22
1.04371
51
3.97747
2023
30
23
0.78217
31
0.10433
3023
50
23
1.06654
51
0.53883
2024
30
24
0.68917
31
2.36892
3024
50
24
1.00346
51
0.87614
2025
30
25
0.88611
31
0.63425
3025
50
25
1.09057
51
0.88968
…
…
…
…
…
…
…
…
…
…
…
…
Graph窗口:
个体值n=5
n=10n=30n=50
实验5-3样本频率抽样分布的实验
程序5-3样本频率抽样分布的实验
01
databin;
建立数据集bin;
02
doj=1to100;
设立100次的循环;
03
x=0;
变量x赋初值0;
04
doi=1to50;
设立50次的循环;
05
z=RANBIN(0,1,0.2);
从π=0.2的二项分布总体中抽取1个随机数;
06
x=x+z;
用x记录抽中1的次数;
07
end;
结束50次的循环;
08
y=x/50;output;
将抽中1的频数x转换为频率y;数据写入数据集;
09
end;
结束1000次的循环;
10
procprint;
调用print过程;
11
varxy;
输出100次x、y的值;
12
procfreq;
调用freq过程;
13
tablexy;
指定列x、y的频数表;
14
PROCGCHART;
调用GCHART过程;
15
VBARx/SPACE=0;
指定绘制x的频数分布直条图;
16
run;
运行;
运行结果:
Output窗口:
100次实验的x和y值
Obs
x
y
Obs
x
y
Obs
x
y
Ob
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 05 参数估计 基础 16