多元正态总体的假设检验和方差分析.docx
- 文档编号:5887177
- 上传时间:2023-05-09
- 格式:DOCX
- 页数:47
- 大小:58.82KB
多元正态总体的假设检验和方差分析.docx
《多元正态总体的假设检验和方差分析.docx》由会员分享,可在线阅读,更多相关《多元正态总体的假设检验和方差分析.docx(47页珍藏版)》请在冰点文库上搜索。
多元正态总体的假设检验和方差分析
第3章多元正态总体的假设检验与方差分析
从本章开始,我们开始转入多元统计方法和统计模型的学习。
统计学分析处理的对象是带
有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。
统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。
参数估计问题回答诸如“未知参数的值有多大?
”之类的问题,而假设检验回答诸如“未知参数的值是吗?
”之类的问题。
本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断,两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。
3.1一元正态总体情形的回顾
一、假设检验
在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为和。
1、显著性检验
2
为便于表述,假定考虑假设检验问题:
设X1,X2,…,Xn来自总体N(,)的样本,
我们要检验假设
3.1)
原假设H。
与备择假设Hi应相互排斥,两者有且只有一个正确。
备择假设的意思是,一旦否定原假设H0,我们就选择已准备的假设H1。
2
当已知时,用统计量z
在原假设H。
成立下,统计量
z服从正态分布z〜N(0,1),通过查表,查得
N(0,1)的上
分位点z2。
对于检验问题(3.1.1
,我们制定这样一个检验规则(简称检验)
当zz2时,拒绝H0;
(3.2)
当zz2时,接受Ho。
我们称z2为临界值,是N(0,1)的上分位点,不同的临界值代表不同的检验。
称拒绝原假设H0的统计量z的范围为拒绝域,称接受H0的统计量z的范围为接受域,因此给出一个检验,
就是给出一个拒绝域。
2、两类错误
由于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。
一类错误
是,原假设H。
本来正确,但按检验规则却作出了拒绝H。
的判断,这类错误称为第一类错误(弃
真错误),其发生的概率Pzz2称为犯第一类错误的概率;另一类错误时,原假设H。
本来不正确,但按检验规则却作出了接收H。
的判断,这类错误称为第二类错误(存伪错误),
其发生的概率称为犯第二类错误的概率,记为。
同时控制这两类错误是困难的,当时在样本容量n固定的条件下,要使和同时减小,
通常是不可能的。
在假设检验的应用中,由奈曼(NEYMAN与皮尔逊(PEARSON提出了一个原则,
即在控制犯第一类错误的概率条件下,尽量使犯第二类错误的概率小,这种检验问题,称
为显著性检验问题。
根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分,未必意味着原假设就是正确的。
所以,在实际问题中,为了通过样本观测值对某一猜测取得强有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。
3、关于检验的p值
F面,我们再介绍进行检验的另一种方式
p值,我们就以(3.1.1)的检验问题为例来
加以说明,对于样本,我们通过统计量,计算出
Zo
,是一确定值,这里的X是
样本观测值的均值,再由统计量Z服从正态分布z〜N(o,1),计算P{z
Zo}为检验的p值。
由于
z.-2等价于p=P{z
Zo
,所以检验规则可以表述为:
上述
时,拒绝Ho;
时,接受Ho。
接受Ho。
(3.3)
p值的检验规则与(3.1.2)的检验结果相比含有更丰富的信息,
p值越小,拒绝原
假设的理由就充分。
通常SAS等软件的计算机输出一般只给出p值,由你自己给定的值来判断检验结果
二、单一变量假设检验的回顾
1、单个正态总体均值的检验
考虑假设检验冋题:
设
2
Ho:
X1,X2,…,Xn来自总体N(,)的样本,我们要检验假
H1
(1)总体方差
2
已知
构造统计量
在原假设Ho成立下,
Z服从正态分布Z~N(0,1),可得这样一个检验规则:
当ZZ2时,拒绝
当ZZ2时,接受
Ho
o
2
(2)总体方差未知
构造统计量
当tt2(n1)时,拒绝
当tt2(n1)时,接受
Ho.
Ho
o
(3.1.4)
2、两个正态总体均值的比较检验
考虑假设检验问题
H0:
12,H1:
12
(3.1.5)
设X1,X2,,Xn1是取自总体
2
N(1,1)的容量为n1的样本,丫1,丫2,
,丫n2是取自
则:
在原假设H°成立下,
t服从自由度为n1的t分布t~t(n1)可得这样一个检验规
2
N(2,2)的容量为n2的样本,给定显著性水平
构造检验统计量z
(i)两个总体方差2和;已知
在原假设Ho成立下,
(3.1.6)
z服从正态分布z~N(0,1),检验规则为:
当ZZ2时,拒绝Ho;
z2时,接受Ho。
22
(2)两个总体方差1和2都未知,但
用样本方差s代替,构造检验统计量
在原假设H°成立下,t服从正态分布t~t(nrn22),检验规则为:
当tt(nin22)时,拒绝Ho;
2
当tt(nin22)时,接受Ho。
.■2
3、多个正态总体均值的比较检验(方差分析)
设k个正态总体分别为
N(1,2),
N(
2),…,N(
k,2)从k个总体取ni
个独立样本如下:
X1⑴
⑴
Xn1
考虑假设检验冋题
H°:
假设H°成立条件下
这里SSA
k
SST
i1
i
ni
x;k)
(k)
入2
(k)Xnk
H1:
至少存在
构造检验统计量为:
^A/(KJ1
SSE/(nk)
ni(XiX)2称为组间平方和;
(X『X)2称为总平方和
nk)
SSE
Xi
ni
(Xj⑴
Xi)2称为组内平方和;
1n
1(i)
Xj
nij1
n
Xj(i)
j1
n2
给定检验水平
,可确定出临界值F,则拒绝H0,否则不能拒绝H°。
SAS过程
,查F分布表,使PFF
再利用样本值计算出F值,若FF,附注:
多元假设检验与
其中的计算一般都很复杂,可用国际上著名
本章的主要内容是多元假设检验和方差分析,
的专业软件——SAS软件计算。
SAS中有GLM,ANOVA和NESTED等过程可用方差分析。
其中GLM过程最常用。
SAS的GLM过程采用了一般线性模型:
yb°6X1...bmXm
在方差分析问题中,变量x-i...xm是示性变量,即只取0或1的变量。
GLM过程对每一因子
的每一水平,通过CLASS语句产生1个示性变量,也称分类变量。
GLM过程主要有四个语句:
PROCGLM,CLASS,MODEL和LSMEANS语句。
PROCGLM语句用以调用GLM过程,有许多选项,一般形式是:
Procglm[data=数据集名称][outstat=输出的统计量]
[order=formatted|freq|data|internal];
CLASS语句说明哪些变量是分类变量。
方差分析中的因素都是分类变量,如:
ClassV1V2V3;
此语句指示计算机把因子V1,V2,V3作为分类变量,可以是字符型变量或数字型变量。
如果是字符型变量,长度限于10个字符以内。
MODEL语句语句中等号前是响应变量,如:
ModelY=A;
ModelY=ABC;
ModelY=ABA*B
ModelY1Y2=AB
LSMEANS语句
单因子ANOVA
主效应模型
含交互效应的因子模型
多因子方差模型MANOVA用以求待估参数的最小二乘估计。
LsmeansABA*B;
MANOVA语句用以说明是做多元方差分析。
3.2均值等于常数向量的检验
在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,
将p项指标的历史平均水平记作°,考虑新的p项指标平均值是否与历史数据记载的平均值
有明显差异?
若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:
例3.1测量20名健康女性排汗量&、钠含量X2、钾含量X3得表3.1o问健康女性X,、X2、
X3的均值是不是4、50、10?
表3-120名健康女性排汗量X1、钠含量X2、钾含量X3数据
排汗量x
钠含量X2
钾含量X3
3.7
48.5
9.3
5.7
65.1
8.0
3.8
47.2
10.9
3.2
53.2
12.0
3.1
55.5
r9.7
4.6
36.1
7.9
2.4
24.8
14.0
7.2
33.1
7.6
6.7
47.4
8.5
5.4
54.1
M1.3
3.9
36.9
12.7
4.5
58.8
M2.3
3.5
27.8
9.8
4.5
40.2
P8.4
1.5
13.5
1°.1
8.5
56.4
:
7.1
4.5
71.6
8.2
6.5
52.8
P1°.9
4.1
44.1
11.2
5.5
4°.9
:
9.4
例3.1
的数学模型就是:
x(X1,X2,X3)'服从N(,)要根据2°个样品做复合检验
14
14
H°:
25°,
H1:
25°
31°
31°
一般的,我们考虑p维正态分布均值等于常数的检验问题:
X1,X2,,Xn为取自P维正
态总体Np(1,)的一个样本,要检验:
H°:
°;Hi:
°,(3.4)
其中0为已知p维向量。
对于这样一个检验问题,分为以下两种情形:
一、协方差阵已知条件下,均值的检验
作出假设后,需要构造一个合适的统计量。
要检验的假设在形式上同一维情形是一样的。
H°:
°;Hi:
°
X
在一维时构造的统计量为u°且在H°成立时,U服从正态分布N(°,1)。
°
依照一维情形,由于H°成立时X服从p维正态分布N(°,—),°。
若记AAt,
n
a为非奇异对称阵,
则有■.
nA1(X°)服从N(°,l)但用
N(°,I)来确定拒绝域不方便,因
此,改选用统计量,
2n(X
)T1
°)
(X°)
(3.5)
当H°成立时,
2
服从
2
(p)-分布。
对给定的,从P
222
(p),求出(P)。
当22(P)时,
要先求
1
1,这需要大量的计算。
实际计算
2
时,可以不必求出1,只
要令
Y
1(X
0)
即
Y
(X
0)
(3.6)
求解方程组(
3.2.3),求出
Y后,
则
2n(X
0)ty
二•协方差阵
未知条件下均值
的检验
假设检验问题仍然是:
H0:
0;
H1:
0
其中0为已知p维向量。
在
回顾一元情况,
在原假设H
0成立下,t
X
服从自由度为n
1的t分布,
在P维正态情况下,当协方差已知时,选用时统计量为
现用样本协方差S代替总体协方差阵,令
T2n(n1)(Xo)TS1(X。
)
2
统计量T的分布是一元统计中t分布的推广,最早由HOTELLING导出,在上一章中,我们已经给出了这个定义,可以直接用它作为检验H0的统计量,T2分布已被仔细研究过,1%及5%
2
的分位点已经列成专表,读者可在[3]中找到这个表。
也可以利用HOTELLINGT分布的性质,
F°J)「t2〜F(p,np)(证明参见朱道元P210)
(n1)P
当Ho不成立时,F有变大的趋势,对给定的,从P{FF(p,np)}
求出F(p,np),当FF(p,np)时,拒绝Ho;否则接受Ho。
例3.1测量20名健康女性排汗量x1、钠含量X2、钾含量X3得表3.1o问健康女性X1、X2、
n(X
0)T1(X
0)
x3的均值是不是4、50、10?
解:
建立
Ho:
2
3
4i
50,Hi:
2
10.
4
50
10
用sas,matematica,matlAB软件都可算出
4.64
X45.4,S
9.965
2
T20(X
F
2.8793684
10.0100000
-1.8090526
1
0)'S(X
(203)*T2/(19*3)
10.0100000
199.7884211
-5.6400000
0)9.74。
2.90F3,17(0.10)
-1.8090526
-5.6400000
3.6276579
2.44
所以否定原假设,即在
0.10显著水平下拒绝H0
例3.1也可用下列SAS程序计算
datahanye;
inputx1-x3;y1=x1-4;y2=x2-50;y3=x3-10;a=1;
cards
3.7
48.5
9.3
5.7
65.1
8.0
3.8
47.2
10.9
3.2
53.2
12.0
3.1
55.5
9.7
4.6
36.1
7.9
2.4
24.8
14.0
7.2
33.1
7.6
6.7
47.4
8.5
5.4
54.1
11.3
3.9
36.9
12.7
4.5
58.8
12.3
3.5
27.8
9.8
4.5
40.2
8.4
1.5
13.5
10.1
8.5
56.4
7.1
4.5
71.6
8.2
6.5
52.8
10.9
4.1
44.1
11.2
5.5
40.9
9.4
procglm;
modely1-y3=a/noint;
manovah=a/printeprinth;
run;I
执行此程序后得到的输出中主要的是最后一个表
H=TypeIIISSCPMatrixfora
E=ErrorSSCPMatrix
S=1M=0.5N=7.5
Wilks'Lambda0.661127742.90
Pillai'sTrace0.338872262.90
Hotelling-LawleyTrace0.512566992.90
3170.0649
3170.0649
3170.0649
3170.0649
Roy'sGreatestRoot0.512566992.90
可见P值为0.0649,所以否定原假设,即在
0.10显著水平下拒绝Ho。
在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面的优点,而一元的检验容易发现各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信
3.3两总体均值的比较检验
例3.2为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业
对中国的政治、经济、法律、文化等环境打分,得表3-2。
试分析日美两国在华企业对中国经
营环境的评价是否存在差异?
表3-2日美两国在华企业对中国经营环境的评价
美国企业号
政治环境X1
经济环境X2
法律环境X3
文化环境X4
美1
65
35
25
60
美2
75
50
20
55
美3
60
45
35
65
美4
75
40
40
70
美5
70
30
30
50
美6
55
40
35
65
美7
60
45
30
60
美8
65
40
25
60
美9
60
50
30
70
美10
55
55
35
75
日本企业号
政治环境Y1
经济环境Y2]
法律环境Y3
文化环境Y4
日1
55
55
40
65
日2
50
60
45
70
日3
45
45
35
75
日4
50
50
50
70
日5
55
50
30
75
日6
60
40
45
60
日7
65
55
45
75
假设X(Xi,X2,X3,X4)'服从N(x
下,且有10对样品,要做复合检验
x1
X2
x3
X4
x),Y(丫1,丫2,丫3,丫4)'服从N(y,y)
yi
y2
y3
y4
般情况下,我们考虑X1,X2,
Xn为取自P维正态总体Np(1,)的一个样本,
丫1,丫2,,丫m为取自P维正态总体Np(2,)的一个样本。
假定两组样本相互独立,且
Yi
i1
一、有共同已知的协差阵时
对于例3.2提出的问题,可归类为假设检验问题:
H0:
12
H1:
1
2其中12为已知P维向量。
X
Ynm
在一维情形下,用了统计量
U
丫nm,与前面相似的思路,在p维时,选用统
0,nm
计量
2nmt
1“
(XY)
(X
Y)
nm
当H。
成立时,服从
2(p)-分布。
对给定的显著性水平,从P22(p)
2
O
2
2
求出
(P)时,拒绝Ho;当
(P)时,接受Ho
、有共同的未知协差阵时
假定两组样本相互独立,
已知两总体有相同的协方差阵
>0,但未知,要检验的假设为:
Ho:
12
H1:
12其中12为已知p维向量。
记
日8
50
65
35
80
日9
40
45
30
65
日10
45
50
45
70
n__
S1(XiX)(XiX)T
S2(YY)(YY)T
i1
采用统计量为
2n^n——t1——
T2(mn2)(XY)T(S1S2)1(XY)
mn
定理3.2若Ho:
xy,xy成立;则
2
F(nmp1)T/[p(nm2)]~F(p,nmp1)
证明参见朱道元P217
定理3.2可用于用做两总体复合检验。
根据定理3.2,当H0成立时,统计量
F(nm2)p1丁2nmp1丁2
(nm2)p(nm2)p
=mn(mnp1)(XY)TGS2)1(XY)~F(p,nmp1)p(mn)
当H0不成立时,F有变大的趋势,对给定的,从P{FF(p,nmp1)}
求出F(p,nmp1),当FF(p,nmp1)时,拒绝H0;否则接受H0
以上有关的统计量在H。
成立时所服从的分布的相应证明都比较复杂,这里我们只叙述了
的解:
作假设H。
:
xy;
H1:
xy
64
51
43
-51
X,
Y
30.5
40
63
70.5
54.44444444
-18.88888889
-13.33333333
-27.22222222
-18.88888889
56.66666667
1.11111111
34.44444444
-13.33333333
1.11111111
35.83333333
28.88888889
-27.22222222
34.44444444
28.88888889
56.66666667
有关结论,没有给出证明,可参看第二章的相关内容。
这些统计量同一维相应的统计量均有相
似之处,对比两者的形式有助于理解和应用。
例3.2
Sx
55.83333333
5.83333333Sy
19.44444444
5.83333333
55.83333333
2.77777778
19.44444444
2.77777778
50.00000000
-0.83333333
26.94444444
-11.11111111
-0.83333333
26.94444444
-11.11111111
35.83333333
T210*10(XY)'S1(XY)29.8625
1010
F(101041)/(910102)*4)*29.86256.2214
所以日美两国在华企业对中国经营环境的评价存在显著差异。
例3.2可用如下SAS程序实现
datawu1;
input
no$polecnlegculcou$;
cards
美165
35
25
60
a
美275
50
20
55
a
美360
45
35
65
a
美475
40
40
70
a
美570
30
30
50
a
美655
40
35
65
a
美760
45
30
60
a
美865
40
25
60
a
美960
50
30
70
a
美1055
55
35
75
a
日155
55
40
65
j
日250
60
45
70
j
日345
45
35
75
j
日450
50
50
70
j
日555
50
30
75
j
日660
40
45
60
j
日765
55
45
75
j
日850
60
35
80
j
日940
45
30
65
j
日10455045
70
j
;「
proc
glm;
class
cou;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 总体 假设检验 方差分析