方差分析和回归分析.docx
- 文档编号:16022290
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:14
- 大小:84.62KB
方差分析和回归分析.docx
《方差分析和回归分析.docx》由会员分享,可在线阅读,更多相关《方差分析和回归分析.docx(14页珍藏版)》请在冰点文库上搜索。
方差分析和回归分析
第八章方差分析和回归分析
在生产过程和科学实验中,经常遇到这样的问题:
影响产品的质量、产量的因素很多,我们需要通过观察或试验来判断哪些因素对产品的质量、产量有显著的影响,方差分析就是用来解决这类问题的一种有效方法。
方差分析就是检验同方差的若干正态母体均值是否相等的一种统计分析方法,它是在20世纪20年代由英国统计学家费希尔首先用到农业试验上去的。
后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.
第一节单因素的方差分析
在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素。
因素分为两类,一类是人们可以控制的;一类是人们不可以控制的。
以下我们所说的因素是可控因素,因素所处的状态称为该因素的水平。
如果在一项试验中只有一个因素在改变,这样的试验我们称为单因素试验,如果多于一个因素在改变,就称为多因素试验。
本节就通过实例来讨论单因素试验。
1.数学模型例9.1某试验室对钢锭模进行选材试验。
其方法是将试件加热
到700°C,投入到20°C的水中急冷,这样反复进行到试件断
裂为止,试验次数越多,试件质量越好。
试验结果如表所示
试验号
材质分类
A1
A
A
A
1
160
158
146
151
2
161
164
155
152
3
165
164
160
153
4
168
170
162
157
5
170
175
164
160
6
172
166
168
7
180
174
8
182
试验的目的是确定4种生铁试件的抗热疲劳性能是否有显
著差异
这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4个水平单因素试验。
例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,
在40°C,50°C,…,90°C的水中分别进行4次试验,得到该种纤维在每次试验中的缩水率如表。
试问浸泡水的温度对缩水率有无显著影响?
试验号
温度
40°C
50°C
60°C
70°C
80°C
90°C
1
4.3
6.1
10.0
6.5
9.3
9.5
2
7.8
7.3
4.8
8.3
8.7
8.8
3
3.2
4.2
5.4
8.6
7.2
11.4
4
6.5
4.1
9.6
8.2
10.1
7.8
这里试验指标是人造纤维的缩水率,温度是因素,这项试验为6水平单因素试验。
单因素实验的一般数学模型:
因素A有s个水平
A4,,A,在水平Aj(j=1,2,…,s)下进行叫⑴—2)
次独立试验,得到如下表的结果。
水平
观测值、*、
A1
A2
As
样本总和
样本均值
总体均值
X11
X21
Xg1
T1
X1
X12
X22
Xn22
T2
X2
X1s
X2s
XnsS
Ts
Xs
假定:
各水平Aj(j=1,2,…,s)下的样本Xj〜N(<2)
i=1,2,…,nj,j=1,2,…,s,且相互独立。
(分组总体)
故沧八[可看作是随机误差,它们是试验中无法控制的各
种因素引起的。
记Xij;j则
Xij=比j,i=1,2,…,nj,j=1,2,…,s
.j〜N(0,匚2),各相互独立(9-1)
其中叫与匚2均为未知参数。
(9-1)式称为单因素试验方差分析。
方差分析的任务是对于模型(9-1),检验s个总体N(叫,2),…,N(%,匚2)的均值是否相等,即检验假设
Ho:
BP二…二5
Hi:
ui,U2,…,m不全相等(9-2)
1ss
引入u='niU.,其中n八nj,■表示U-U2,…,Us的加权平nj二」j日
均,」称为总平均。
j=1,2,…,s
F表示水平Aj下的总体平均值和总平均的差异,习惯上将
称为水平Aj的效应。
则模型(9-1)可改写为:
Xij=「=j;ij
Xij可分解总平均、水平Aj的效应及随机误差3部分之和
s
'n广=0,j〜N(o,二2),各j独立,i=1,2,…,
j11
nj,j=1,2,…,s
假设(9-2)等价于假设
H0:
二1=;:
2二…二:
s=0H1:
-1^2,…,匚s不全为零
2.平方和分解
记
snj_
St='(XjX
j=1i=1
snj
这里X」—Xij,St能反映全部试验数据的差异,又称为总nj£i吕
变差。
nj
A下的样本均值Xj.=丄aXj
njy
由于
snj___
SD(XijXXX))
j土i壬
_snj———___
=■-■-[(Xij一Xi)2(Xi_X)22(Xij-Xj)(Xj-X)]
j1i
sni___s__ni_
叩二二(为一xj)(xj-x)二'(xj-x)(二Xij-njxj)=0
j=1i=1j=1i班
snjsnj
记Se="(Xij—Xi)2,Sa(X>X)2,Se称误差平方和,j=1i±j壬i#
Sa称因素A的效应平方和,于是
St=Se+Sa
snj
记;r,为随机误差的总平均,
nj4i4
-1snj
;jij,j=1,2;,s
njjAiA
于疋Se='、(Xj-Xi)2八'(;ijJj)2
j二i土j二iz!
s2s
Sa=为nj(Xj—X)=送nj(Cij中gj,-g)
j仝j4
注:
①Se反映了实验过程中各种随机因素所引起的随机误差。
②Sa反映了各组样本之间的差异程度,即由于因素A的不同
水平4所引起的系统误差。
③方差分析的目的是研究SA相对于Se有多大,若SA比Se显著地大,这表明各水平对指标的影响有显著差异,故需研究与Sase有关的统计量。
3.假设检验问题
当H。
成立时,设Xij〜N(卩,<!
2)i=1,2,…,
nj,j=1,2,…,s,且相互独立,则有
Sa2Se2/
A2~x(s「),一2~X(s)
CTCJ
于是,对于给定的显著性水平:
-(01),由于
P{Fn-s)}八
由此得检验问题的拒绝域
F丄F_(s-1,n-s)
由样本值计算F的值,若F_F:
.,贝卩拒绝H0,即认为水平的改变对指标有显著性的影响;若F:
:
:
F.,则接受原假设H0,即认为水平的改变对指标无显著影响。
上面的结果可排成下表形式,称为方差分析表
方差来源
平方和
自由度
均方和
F比
因素A
Sa
s-1
Sa=Sa;'s—1
F云乓
误差
Se
n-s
Se令'n-s
总和
St
n-1
当FZFo.o5(s-1,n-s)时,称为显著;当FZFo.oi(s-1,n-s)时,称
为高度显著。
在实际中,我们按如下较简便公式来计算St,Sa,Se
njsnj
记TjXjj,j=1,2,,s,Txij
i=1pi#
H0:
u^u^3=U4
ST
Sa
=Sr-Sa=1513.51
=0.05,完成这样假设。
解:
s=4,nj=7,n2=5,n3=8,,n4=6,n=26
s22
Xi2--698959-(4257)1957.12,
ji4n26
s222
八—L--697445.49-(4257)=443.61,
jmnjn26
得方差分析表
方差来源
平方和
自由度
均方和
F比
因素A
443.61
3
147.87
2.15
误差
1513.51
22
68.80
总和
1957.12
25
因F(3,22)=2.15:
:
Fo.o5(3,22)=3.05,则接受R0,即认为生铁试样
的热疲劳度无显著差异。
例9.4如上所述,在例9.2中需检验假设
H0:
S=U2==U6
Hi:
ui,U2‘,U6不全相等
给定—0.05,—0.01,完成这样假设
角解s=6,nt=n2=…=n6=4,n=24
S."x2工=112.27,
jmyn
SE=S.-SA=56.27
得方差分析表
方差来源
平方和
自由度
均方和
F比
因素A
56
5
11.2
3.583
误差
56.27
18
3.126
总和
112.27
23
因4.25=F0.01(5,18)aFa=3.583〉F0.05(5,18)=2.77,故浸泡水的温度对缩水率有显著影响,但不能说有高度显著影响。
注:
本节的方差分析是在以下两项检验假设下,检验各个正态总体均值是否相等。
一是正态性检验假设,假定数据服从正态分布;二是等方差性假设,假设各正态方差方差相等。
第二节回归分析
回归分析方法是数理统计中的常用方法之一,是处理多个
变量之间相关关系的一种数学方法。
1.回归分析的概述
引入:
客观世界中变量之间的关系可以分成两大类
一类:
确定性的关系:
如U=IR,S=R2等
二类:
非确定性的关系:
如血压与年龄(不能用一个确定的函数关系式
表达出来)
具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的
不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统
计规律的一种数学方法。
它主要解决以下几方面问题:
(1)从一组观察数据出发,确定这些变量之间的回归服从;
(2)对回归方程进行假设检验;
(3)利用回归方程进行预测和控制。
注:
回归分析,就是寻找这类不确定的变量间的数学关系式,
并进行统计推的一种方法。
其最简单的关系式是线性回归。
我们先考虑两个变量的情形.设随机变量y与x之间存在某种相关
关系,x是可以精确测量或控制的非随机变量,称为自变量,而y是随机变量,无法预先作出准确判断,称为因变量。
当X取x时,y的概率分析与X有关,则称丫与X之间有相关关系。
由x可以在一定程度上决定y,但由x值不能准确地确定y。
为了研究它们这种关系,我们对(x,y)进行了一系列观测,得到一个容量为n的样本(x取一组不完全相同的值):
(x「yj,(x2,y2),,(xn,yn),其中y是x=xi处对随机变量y的观察结果,每对(洛$)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得的图为散点图,如图10-1所示。
由图10-1(a)可以看出散点大致地围绕一条直线散布,而图10-1
(b)中的散点大致围绕一条抛物线散布。
这就是变量间统计规律性的一种表现。
如果图中的点像图10-1(a)中那样呈现直线状,则表明y与x之间存在线性相关关系,可建立数学模型
y=abx10-1
来描述它们之间的关系。
因x不能严格地确定y,故带有一项误差;,假设
H0:
y〜Nabx,二2;〜N0,C2
其中未知数a,b,二2不依赖于x,(10-1)式称为一元线性回归模型。
在(10-1)式中,a,b,;「2是待估参数,估计它们的最基本方法就是最小二乘法。
记a和b是用最小二乘法获得的估计,则对于给定的X,方程
A.A.
y二axby10-2
称为y关于x的线性回归方程或回归方程,其图形称为回归直线。
(10-2)式是否真正描述了变量y与x客观存在的关系,还需进一步检验。
多元线性回归模型
2
y=bcbpXp~no,二
其中bo,d,…,bp,;「2都是与为,…Xp无关的未知参数。
进行n次独立观测,得样本:
y「Xi1‘Xi2,Xipi=匸2,,n
用最小二乘法获得的未知参数的最小二乘估计,记为
bo‘b1‘…,bp,得多元线性回归方程
y=bo*bx1+•…bxpI一1,2‘n10-4同理,(10-4)式是否真正描述了变量y与X1,…Xp客观存在的关系,还需进一步检验。
注:
解决问题
(1)根据样本估计未知参数
boh,,bp,;「2
(2)对此数量关系式的可信度进行统计检验。
(3)检验各变量x,x2,…Xp分别对指标是否有显著性影响。
2.参数估计(一元线性回归)
最小二乘法的基本思想:
对一组观测值
(Xi,yJ,(X2,y2),,(Xn,yn)
使误差[*i-(a•bXi)的平方和
nn
22
Q(a,b)八八[yj-(abXi)]
7iT
达到最小的a和b作为a和b的估计,称其为最小二乘的估计。
根据微分学的极值原理,可将Q(a,b)分别对a,b求偏导
数,并令它们等于零,得到方程组
由于不全相同,正规方程组的参数行列式:
n
'⑶-y)(Xi-x)
i4
n
'、(Xi-X)2
i4
n
2
=n'(Xj_x)-0
i4
故(10-7)式有唯一解
于是所求的线性回归方程为
AAy=ax亠by
若将a=y_bX代入上式,则线性回归方程亦可表示为
y=y亠b(x-x)(10-10)
(10-10)式表明,对于样本观测值
(Xi,yi),(X2,y2),,(Xn,yn)
回归直线通过散点图的几何中心(x,y),回归直线是一条过点
(X,y),斜率为b的直线。
上述确定回归直线所依据的原则是使所有观测数据的偏差
平方和达到最小值。
按照这个原理确定回归直线的方法成为最小二乘法。
“二乘”是指Q是二乘方(平方)的和。
如果y是正
态变量,也可以用极大似然估计法得出相同的结果。
为了计算上的方便,弓I入下述记号:
的统计资料如下表所示。
求y关于X的线性回归方程。
月份
1
2
3
4
5
6
7
8
9
10
X(千条)
12.0
8.0
11.5
13.0
15.0
14.0
8.5
10.5
11.5
13.3
y(万元)
11.6
8.5
11.4
12.2
13.0
13.2
8.9
10.5
11.3
12.0
解:
将有关计算结果列表10-2(见书)
13=卷=0.6821,a=1126-0.68211173=3.2590
Sxx1010
=1421.89—汉(117.3)2=45.961
10
1
=1352.15—一汉117.3汇112.6=31.352
xy10
故回归方程为
A
y=3.25900.6821x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析 回归 分析