书签分享收藏举报版权申诉 / 30

立即下载加入VIP,免费下载

当前位置：首页 > 解决方案 > 学习计划 > 05参数估计基础共16页.docx

05参数估计基础共16页.docx

文档编号：15097008
上传时间：2023-06-30
格式：DOCX
页数：30
大小：67.49KB

05参数估计基础共16页.docx

《05参数估计基础共16页.docx》由会员分享，可在线阅读，更多相关《05参数估计基础共16页.docx（30页珍藏版）》请在冰点文库上搜索。

05参数估计基础共16页.docx

05参数估计基础共16页

第五章参数估计基础

教师范读的是阅读教学中不可缺少的部分，我常采用范读，让幼儿学习、模仿。

如领读，我读一句，让幼儿读一句，边读边记；第二通读，我大声读，我大声读，幼儿小声读，边学边仿；第三赏读，我借用录好配朗读磁带，一边放录音，一边幼儿反复倾听，在反复倾听中体验、品味。

[教学要求]

一般说来，“教师”概念之形成经历了十分漫长的历史。

杨士勋（唐初学者，四门博士）《春秋谷梁传疏》曰：

“师者教人以不及，故谓师为师资也”。

这儿的“师资”，其实就是先秦而后历代对教师的别称之一。

《韩非子》也有云：

“今有不才之子……师长教之弗为变”其“师长”当然也指教师。

这儿的“师资”和“师长”可称为“教师”概念的雏形，但仍说不上是名副其实的“教师”，因为“教师”必须要有明确的传授知识的对象和本身明确的职责。

了解：

通过电脑实验了解抽样分布及t分布的特征，了解查表法估计总体概率的置信区间。

课本、报刊杂志中的成语、名言警句等俯首皆是,但学生写作文运用到文章中的甚少,即使运用也很难做到恰如其分。

为什么?

还是没有彻底“记死”的缘故。

要解决这个问题,方法很简单,每天花3-5分钟左右的时间记一条成语、一则名言警句即可。

可以写在后黑板的“积累专栏”上每日一换,可以在每天课前的3分钟让学生轮流讲解,也可让学生个人搜集,每天往笔记本上抄写,教师定期检查等等。

这样,一年就可记300多条成语、300多则名言警句,日积月累,终究会成为一笔不小的财富。

这些成语典故“贮藏”在学生脑中,自然会出口成章,写作时便会随心所欲地“提取”出来,使文章增色添辉。

熟悉：

理解抽样误差的概念；熟悉标准误的意义及其应用。

掌握：

会计算均数及频率的标准误；掌握总体均数95％和99％置信区间的计算及适用条件;掌握正态近似法计算总体概率的95%和99％置信区间及适用条件；阐述标准差与均数标准误的区别。

[重点难点]

第一节抽样误差与标准误

一、均数（频率）的抽样分布及抽样误差

基本概念：

在同一总体中反复多次随机抽取样本含量相同的若干样本，由于个体差异与偶然性的影响，样本统计量之间以及样本统计量与总体参数之间的差异，称为抽样误差。

这种由抽样造成的均数之间的差异称为均数的抽样误差，频率之间以及频率与概率之间的差异称为频率的抽样误差。

特点：

从正态分布N（μ，σ2）总体中抽样，样本均数

仍服从正态分布；从非正态分布总体抽样，只要μ

样本量足够大（n≥50），样本均数的分布也近似于正态分布。

在抽样研究中，抽样误差是不可避免的。

用来表示抽样误差大小的指标称为标准误。

二、标准误

（一）均数标准误

意义：

均数标准误用符号

表示，也称样本均数的标准差。

它反映了样本均数之间、样本均数与总体均数之间的离散程度，也反映了样本均数抽样误差的大小。

计算：

可按公式

计算。

在实际应用中，总体标准差σ常常未知，需要用样本标准差s来估计。

此时，均数标准误的估计值为

。

由此式可见，若增加样本含量n可以减小样本均数的抽样误差。

主要应用：

①估计总体均数的置信区间；②均数的假设检验。

在指标的意义、计算及结果解释方面注意与标准差区别，不能将两者混淆。

（二）频率的标准误

意义：

频率的标准误用符号σp表示，它反映了样本频率与样本频率之间、样本频率与总体概率之间的离散程度，也反映了样本频率抽样误差的大小。

计算：

可按公式σp=

计算。

在实际应用中，总体概率π常常未知，需要用样本频率p作为总体概率π的估计值，因此频率的标准误的估计值为

。

由此式可见，增加样本含量n可以减小样本频率的抽样误差。

主要应用：

①估计总体概率的置信区间；②频率指标的假设检验。

第二节t分布

一、t分布的概念

服从自由度ν=n-1的t分布。

t分布是总体均数的区间估计及假设检验的理论基础。

二、t分布的图形与曲线下面积分布规律

t分布与标准正态分布相比，其分布密度有如下特征：

①单峰分布，以0为中心，左右对称；②自由度ν越小，则

越大，t值越分散，曲线的峰部越矮，尾部越高；③自由度ν逐渐增大时，t分布逐渐逼近标准正态分布；当ν趋于∞时，t分布就完全成为标准正态分布。

按t分布的规律，密度曲线下面积分布规律为：

单侧：

P（t≤-tα,ν）=α或P（t≥tα,ν）=α

双侧：

P（t≤-tα/2,ν）＋P（t≥tα/2,ν）=α

第三节总体均数及总体概率的估计

一、参数估计的概念

参数估计是指用样本指标（统计量）估计总体指标（参数）。

参数估计有点估计和区间估计两种。

（一）点估计

直接用随机样本的样本均数

作为总体均数μ的估计值或用样本频率p作为总体概率π的估计值的方法称为点估计。

这是一种没有考虑抽样误差的简单估计方法。

（二）区间估计

用已知样本统计量和标准误确定总体参数所在范围的方法称为区间估计。

所估计的总体参数的范围通常称为参数的置信区间（confidenceinterval,CI），这一估计可相信的程度称为置信度或置信水平（如95%或99%）。

若标准差不变，置信度由95%提高到99%，置信区间便由窄变宽，估计的精度下降。

二、置信区间的计算

（一）正态分布总体均数的置信区间

总体均数置信区间的基本公式是

±tα/2,ν

。

样本量较大时，可以是

±Zα/2

或

±Zα/2

（若总体标准差已知）。

实际工作中，估计总体均数置信区间时，要注意与参考值范围区别，见《卫生统计学》教材表5-4中内容。

（二）二项分布总体概率的置信区间

根据样本含量n和样本频率p的大小，可以采用查表法和正态近似法。

重点掌握正态近似法。

正态近似法：

当n足够大，且样本频率p和（1-p）均不太小时，如np与n（1-p）均大于5，p的抽样分布接近正态分布，此时总体概率的置信区间为（p-Zα/2Sp，p+Zα/2Sp），缩写为p±Zα/2Sp。

[案例讨论参考答案]

（1）根据专业知识和《卫生统计学》第五章表5.3中的200名正常成年人血铅值的频数分布可知该资料属于正偏峰分布。

用正态分布法

+1.64S估计正常成年人血铅值的95%参考值范围不合适，因为算术均数

常用于描述正态资料的平均水平，而

+1.64S是以正态曲线下面积的分布规律估计正态资料95%的观察值所在范围单侧上界。

对于正偏峰分布的资料，一般用中位数M或几何均数G来描述其平均水平，并用百分位数法或将数据经对数变换后用正态分布法来估计正常成年人血铅值的95%参考值范围。

本资料用百分位数法计算，得到正常成年人血铅值的95%参考值范围单侧上界为

（μg/100g）。

（2）本例用公式

+1.64

估计正常成年人平均血铅含量的95%置信区间单侧上界是合适的。

因为从非正态总体抽样，当样本量足够大时（例如，n≥50），样本均数的分布近似于正态分布。

本资料属正偏峰分布，但样本量较大n=200，故可用正态近似法估计总体均数的置信区间。

[电脑实验程序及结果解释]

1.实验5-1正态总体样本均数的分布

程序5-1正态总体样本均数的抽样分布

01

DATAa;

建立sas数据集a;

02

ARRAYx（100）x1-x100;

说明数组变量x，其元素包括x1～x100；

03

DOi=1TO100;

设立循环，循环变量i从1增加到100，每次加1；

04

DOj=1TO100;

设立循环，循环变量j从1增加到100，每次加1；

05

x（j）=155.4+5.3*RANNOR（0）;

从正态总体（155.4,5.32）中随机抽取1个数；

06

END;

结束循环；

07

m30=MEAN（OFx1-x30）;

计算x1～x30的均数；

08

OUTPUT;

将x1～x100和m30写入数据集a；

09

END;

结束循环；

10

PROCPRINT;

在Output窗口输出数据集a；

11

VARm30;

指定只输出变量m30的值；

12

RUN;

运行上述程序；

13

DATAfa;

新建数据集fa;

14

SETa（KEEP=m30）;

继承数据集a的数据（只保留m30）；

15

IFm30<153.2THENy=152.9;

若m30<153.2，则y为152.9（组中值）；

16

IFm30<153.8&m30>=153.2THENy=153.5;

若m30在153.2～组段，则y为153.5；

17

IFm30<154.4&m30>=153.8THENy=154.1;

若m30在153.8～组段，则y为154.1；

18

IFm30<155.0&m30>=154.4THENy=154.7;

若m30在154.4～组段，则y为154.7；

19

IFm30<155.6&m30>=155.0THENy=155.3;

若m30在155.0～组段，则y为155.3；

20

IFm30<156.2&m30>=155.6THENy=155.9;

若m30在155.6～组段，则y为155.9；

21

IFm30<156.8&m30>=156.2THENy=156.5;

若m30在156.2～组段，则y为156.5；

22

IFm30<157.4&m30>=156.8THENy=157.1;

若m30在156.8～组段，则y为157.1；

23

IFm30<158.0&m30>=157.4THENy=157.7;

若m30在157.4～组段，则y为157.7；

24

IFm30>158.0THENy=158.3;

若m30>158.0，则y为158.3；

25

PROCUNIVARIATEfreq;

调用UNIVARIATE过程进行统计描述；

26

VARy;

指定变量y；

27

PROCGCHART;

调用GCHART过程绘直方图；

28

VBARm30/MIDPOINTS=152.0TO159.0BY0.5SPACE=0;

指定绘图变量m30，设定组中值从152到159，组距为0.5，条间距为0；

29

RUN;

运行;

运行结果：

Output窗口：

100个样本均数（n=30）：

Obs

m30

Obs

m30

Obs

m30

Obs

m30

1

155.566

26

155.303

51

154.831

76

156.039

2

156.073

27

154.859

52

154.150

77

155.289

3

155.573

28

156.351

53

154.195

78

154.539

4

156.877

29

155.163

54

155.410

79

155.373

5

154.072

30

155.958

55

155.148

80

156.270

6

155.281

31

155.552

56

155.503

81

154.373

7

156.617

32

155.933

57

156.378

82

155.093

8

154.219

33

156.443

58

155.360

83

156.864

9

157.001

34

156.406

59

155.401

84

155.981

10

154.984

35

156.258

60

154.820

85

155.147

11

155.565

36

155.881

61

155.281

86

153.981

12

153.371

37

154.721

62

155.562

87

156.228

13

154.917

38

154.955

63

155.677

88

156.256

14

154.613

39

155.249

64

156.439

89

154.711

15

155.965

40

154.421

65

155.171

90

156.133

16

155.086

41

156.643

66

155.876

91

155.100

17

154.172

42

155.201

67

155.272

92

155.710

18

155.190

43

155.491

68

157.007

93

155.595

19

154.756

44

155.032

69

156.525

94

155.673

20

156.004

45

154.847

70

155.074

95

155.782

21

156.373

46

155.557

71

156.847

96

156.277

22

156.776

47

155.421

72

154.521

97

156.501

23

155.747

48

155.222

73

156.263

98

154.651

24

154.141

49

153.304

74

155.639

99

154.994

25

156.038

50

155.863

75

156.307

100

154.571

变量y的统计描述：

Moments

N样本量100SumWeights权重和100

Mean均数155.48SumObservations变量值之和15548

StdDeviation标准差0.83774589Variance方差0.70181818

Skewness偏度系数-0.0545278Kurtosis峰度系数-0.4661974

UncorrectedSS变量平方和2417472.52CorrectedSS变量离均差平方和69.48

CoeffVariation变异系数0.53881264StdErrorMean标准误0.08377459

BasicStatisticalMeasures

LocationVariability

Mean均数155.4800StdDeviation标准差0.83775

Median中位数155.3000Variance方差0.70182

Mode众数155.3000Range全距3.60000

InterquartileRange四分位数间距1.20000

TestsforLocation:

Mu0=0

Test-Statistic------pValue------

udent'st总体均数为0的t检验t1855.933Pr>|t|<.0001

Sign总体集中位置为0的符号检验M50Pr>=|M|<.0001

SignedRank总体中位数为0的符号秩和检验S2525Pr>=|S|<.0001

Quantiles（Definition5）

Quantile百分位数Estimate估计值

100%Max最大值157.1

99%第99百分位数157.1

95%第95百分位数156.8

90%第90百分位数156.5

75%Q3第75百分位数（第3四分位数）155.9

50%Median第50百分位数（中位数）155.3

25%Q1第25百分位数（第1四分位数）154.7

10%第10百分位数154.4

5%第5百分位数154.1

1%第1百分位数153.5

0%Min最小值153.5

ExtremeObservations极端值

-----Lowest----最小的5个数----Highest----最大的5个数

Value值

Obs序号

Value值

Obs序号

153.5

49

157.1

4

153.5

12

157.1

9

154.1

86

157.1

68

154.1

81

157.1

71

154.1

53

157.1

83

FrequencyCounts

Percents频率PercentsPercents

Value变量值Count频数CellCum累积ValueCountCellCumValueCountCellCum

153.522.02.0155.33232.059.0156.51818.095.0

154.188.010.0155.91818.077.0157.155.000.0

154.71717.027.0

Graph窗口：

m30的频数分布直方图：

2.实验5-2非正态总体样本均数的分布

程序5-2非正态总体样本均数的分布

01

dataa;

建立数据集a；

02

don=5,10,30,50;

设立4次循环，n分别取值为5、10、30和50；

03

doi=1TO1000;

设立1000次的循环；

04

mm=0;

均数变量初始化为0；

05

doj=1TOn;

设立n次循环，j从1递增到n；

06

x=ranexp（0）;

抽取服从指数分布的1个随机数；

07

mm=mm+x/n;

计算均数；

08

end;

n次循环结束；

09

output;

将数据写入数据集；

10

end;

结束1000次循环；

11

end;

结束循环；

12

procprint;

输出数据集a的内容；

13

procgchart;

调用GCHART过程绘个体分布直方图；

14

vbarx/type=pctmidpoints=0to5by0.1axis=30space=0;

指定用x的频率绘图，设定组中值从0到5，组距为0.1，固定纵高为30，条间距为0；

15

procgchart;

调用GCHART过程绘均数分布直方图；

16

vbarmm/type=pctmidpoints=0to5by0.1axis=30space=0;

指定用mm的频率绘图，设定组中值从0到5，组距为0.1，固定纵高为30，条间距为0；

17

byn;

按变量n分组绘图；

18

run;

运行；

运行结果：

Output窗口：

抽样数据结果（数据太多，仅显示部分）

Obs

n

i

mm

j

x

Obs

n

i

mm

j

x

1

5

1

1.84022

6

2.19176

1001

10

1

0.62273

11

0.60295

2

5

2

1.08212

6

1.05054

1002

10

2

0.96270

11

2.34789

3

5

3

0.36275

6

0.76245

1003

10

3

1.17775

11

4.50242

4

5

4

2.65145

6

1.85790

1004

10

4

0.74641

11

0.51284

5

0.83652

6

0.06503

1005

10

5

0.52092

11

1.75401

6

5

6

0.58379

6

2.18046

1006

10

6

0.92931

11

0.07906

7

5

7

1.10407

6

3.22935

1007

10

7

0.99619

11

1.99275

8

5

8

0.76165

6

0.37984

1008

10

8

1.02918

11

1.36452

9

5

9

1.05458

6

0.47120

1009

10

9

1.67199

11

4.86656

10

5

10

1.47626

6

1.31020

1010

10

0.89973

11

0.80916

…

2020

30

20

1.10346

31

0.66435

3020

50

20

1.06641

51

0.15404

2021

30

21

1.14145

31

0.38151

3021

50

21

1.02780

51

1.99582

2022

30

22

0.78598

31

0.61992

3022

50

22

1.04371

51

3.97747

2023

30

23

0.78217

31

0.10433

3023

50

23

1.06654

51

0.53883

2024

30

24

0.68917

31

2.36892

3024

50

24

1.00346

51

0.87614

2025

30

25

0.88611

31

0.63425

3025

50

25

1.09057

51

0.88968

…

Graph窗口：

个体值n=5

n=10n=30n=50

实验5-3样本频率抽样分布的实验

程序5-3样本频率抽样分布的实验

01

databin;

建立数据集bin；

02

doj=1to100;

设立100次的循环；

03

x=0;

变量x赋初值0；

04

doi=1to50;

设立50次的循环；

05

z=RANBIN（0,1,0.2）;

从π=0.2的二项分布总体中抽取1个随机数；

06

x=x+z;

用x记录抽中1的次数；

07

end;

结束50次的循环；

08

y=x/50;output;

将抽中1的频数x转换为频率y；数据写入数据集；

09

end;

结束1000次的循环；

10

procprint;

调用print过程；

11

varxy;

输出100次x、y的值；

12

procfreq;

调用freq过程；

13

tablexy;

指定列x、y的频数表；

14

PROCGCHART;

调用GCHART过程；

15

VBARx/SPACE=0;

指定绘制x的频数分布直条图；

16

run;

运行；

运行结果：

Output窗口：

100次实验的x和y值

Obs

x

y

Obs

x

y

Obs

x

y

Ob

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 05 参数估计基础 16

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：05参数估计基础共16页.docx
链接地址：https://www.bingdoc.com/p-15097008.html

05参数估计基础共16页.docx

热门标签