SAS复习方差和回归部分.docx
- 文档编号:16028233
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:30
- 大小:3.16MB
SAS复习方差和回归部分.docx
《SAS复习方差和回归部分.docx》由会员分享,可在线阅读,更多相关《SAS复习方差和回归部分.docx(30页珍藏版)》请在冰点文库上搜索。
SAS复习方差和回归部分
第三节方差分析
在一个因素不同水平下(三个水平以上)或是在多个因素不同水平组合下测量一个连续反应变量(因变量),这个反应变量的总变异可被解释为分类变量的效应(即主效应,如A,B分别表示由于分类变量A和B的不同水平引起的变异)或分类变量的组合产生的效应(即交互效应,如A*B表示A与B的交互作用),余下的变异为随机误差。
方差分析的基本思想是将所有观察值的总变异分解成不同的变异来源,即对总变异的自由度和平方和进行分解,进而获得不同变异来源的总体方差的估值。
通过构建适当的F值,进行F测验,完成多个样本平均数之间差异显著性测验。
当处理效应为固定效应时,尚可对各个处理平均数进行多重比较。
变异
来源
离均差平方和(SS)
自由度
(df)
均方
(MS)
F值
P值
A
B
A*B
SSA=QA-C
SSB=QB-C
SSAXB=QAB-C-SSA–
SSB
p-1
q-1
(p-1)(q-1)
SSA/dfA
SSB/dfB
SSAxB/dfAxB
MSA/MSE
MSB/MSE
MSAB/MSE
*
*
*
误差
SSE=SST-SSA-SSB-
SSAB
Pq(r-1)
SSe/dfe
(MSE)
总计
SST=W-C
pqr-1
一、方差分析(ANOVA)过程
Ø过程格式:
Procanova;
Class分类变量名列表;
Model依变量=自变量效应表/选项;
Means自变量效应名列表/选项;
TestH=效应变量名E=误差项;
Run;
Procanova;
Class分类变量名列表;
通常对主效应变量进行分类,如果是区组试验,需要同时对区组变量进行分类;
Model依变量=自变量效应表/选项;
列出希望计算出的效应变量,一般为主效应、互作效应、区组效应;给出主效应和互作效应的方差分析结果。
Y=a单因素主效模型
Y=aba*b两因素带互作模型
Y=abca*ba*cb*ca*b*c三因素带互作模型;
Means自变量效应名列表/选项;
进行多重比较分析,主要分析同一因素不同水平间的效应差异;一般只对主效应分析;
选项用于设定多重比较方法等,常用的选项有LSD或t(最小显著差数法)DUNCAN(新复极差测验)TUKEY(固定极差测验法)。
显著水平的设定ALPHA=α,缺省值为0.05。
TestH=效应变量名E=误差项;
TESTH=效应表E=效应:
用以指定某效应作为误差项。
缺省时,以残差MSE作为误差项。
其中:
H=效应变量名,用以指定MODEL语句中作为假设检验的效应,
E=误差项,用以指定作为误差项的效应,常用主效应*区组效应。
RUN;
二、方差分析的类型
1、试验设计类型:
◆随机试验设计
◆随机区组试验设计
1)单因素试验
①单项分组资料的方差分析(单因素完全随机试验)
变异来源
离均差平方和(SS)
自由度
(df)
均方
(MS)
F值
P值
处理组间
SSA=QA-C
p-1
SS组间/df组间
MS组间/MS组内
误差
SSE=SST-SSA
N-P
SS组内/df组内
总计
SST=W-C
N-1
Procanova;
ClassA;
ModelY=A;
NEANSA/LSD;
Run;
②单因素完全随机区组试验
变异来源
离均差平方和(SS)
自由度
(df)
均方
(MS)
F值
P值
处理组间
区组间
SSA=QA-C
SSB=QB-C
a-1
b-1
SSA/dfA
SSB/dfB
MSA/MSE
MSB/MSE
误差
SSE=SST-SSA-SSB
N-a-b+1
SSE/dfE
总计
SST=W-C
N-1
Procanova;
ClassAC;
ModelY=AC;
MeansA/lsd;
Run;
例1:
有一个水稻施肥实验,设有5个处理(trt),分别为A(施氨水1),B(施氨水2),C(施碳氨),D(施尿素)和E(不施肥)。
每个处理均种植4盆,随机排列,试分析各处理对水稻平均产量的影响。
A:
24302826
B:
27242126
C:
31282530
D:
32333328
E:
21221621
Datatwo;
Dotrt=1to5;
Dorep=1to4;
Inputy@@;output;
End;end;
Cards;
24302826
27242126
31282530
32333328
21221621
;
procanova;
classtrt;
modely=trt;
meanstrt/t;
run;
2)二因素试验
随机试验设计和随机区组试验设计:
①两项分组资料的方差分析(二因素完全随机试验)
变异
来源
离均差平方和(SS)
自由度
(df)
均方
(MS)
F值
P值
A
B
A*B
SSA=QA-C
SSB=QB-C
SSAXB=QAB-C-SSA–SSB
p-1
q-1
(p-1)(q-1)
SSA/dfA
SSB/dfB
SSAxB/dfAxB
MSA/MSE
MSB/MSE
MSAB/MSE
误差
SSE=SST-SSA-SSB-SSAxB
Pq(r-1)
SSe/dfe
总计
SST=W-C
Pqr-1
Procanova;
ClassAB;
ModelY=ABA*B;
Meansab/lsd;
Run;
②二因素随机区组试验
Y=μ+A处理效应+B处理效应+A*B互作+区组效应(C)+随机误差
Procanova;
ClassA、BC;
ModelY=ABA*BC;
Meansabc/lsd;
Run;
例2:
研究水分和肥料两个因素与番茄产量之间的关系,其中水分设三个水平(W1-100%、W2-75%、W3-50%)、肥料设两个水平(F1-20kg、F2-40kg),组成6个水分-肥料试验组合,观察其对番茄的增产效果,每个组合5次重复,各个组合的产量(kg/m2)结果如下表,试进行方差分析。
(随机试验设计和随机区组试验设计):
表1:
水分和肥料组合对番茄产量的影响
水分(A)
肥料水平(B)
B1
B2
A1
33.423.531.839.218.2
27.533.531.641.027.8
A2
20.224.622.318.524.5
28.215.223.420.919.5
A3
25.233.127.429.122.2
20.227.831.329.624.2
Dataone;
doa=1to3;
dob=1to2;
dorep=1to5;
InputM@@;output;
end;end;end;cards;
33.423.531.839.218.227.533.531.641.027.8
20.224.622.318.524.528.215.223.420.919.5
25.233.127.429.122.220.227.831.329.624.2
;
Procanova;
classabrep;
modelm=aba*brep;
meansab/talpha=0.05;
run;
三、特殊试验设计的线性模型
1、裂区试验设计:
Y=μ+区组效应+主、副处理效应+主、副处理互作效应+随机误差
Procanova;
Class区组效应主处理效应副处理效应;
ModelY=区组效应主处理效应副处理效应主*副处理互作效应主处理效应*区组互作效应;
MEANS主、副处理效应/T;
TESTH=主效应E=主效应*区组效应;
RUN;
例:
研究践踏强度(T1、T2、T3)与施氮水平(N1、N2、N3)对草坪质量的影响,试验采用裂区设计,主区为践踏强度,副区为施氮水平,3次重复,试分析践踏强度和施氮水平对草坪密度(株,cm2)的影响。
轻度践踏(T1)
中度践踏(T2)
重度践踏(T3)
N2
N1
N3
N3
N2
N1
N2
N1
N3
70
70
90
70
60
60
20
40
40
90
80
95
80
70
60
35
45
50
60
70
80
90
50
70
20
30
30
DATAturf;
DoT=1to3;
DoN=1to3;
Dorep=1to3;
Inputy@@;
Output;
End;end;end;
Cards;
708070709060909580
606070607050708090
404530203520405030
;
procanova;
classTNREP;
modely=TNT*NREPT*rep;
meansTN/T;
testH=TE=T*REP;
RUN;
3正交试验设计
3.1无重复正交试验设计资料的方差分析
例:
研究5种蛋鸡育成期的配合饲料对鸡产蛋效果的影响。
配合饲料中主要考察5种成分组成,各成分均取3个水平,试找出最优的配方方案。
A(玉米):
a1(61.5)a2(66.0)a3(70.6)
B(麸皮):
b1(6.5)b2(8.0)b3(14.0)
C(豆饼)c1(6.0)c2(9.0)c3(15.0)
D(鱼粉)d1(3.0)d2(5.0)d3(9.0)
E(食盐)e1(0.0)e2(0.1)e3(0.25)
同时需要考虑a*b、a*c、a*e的互作。
选用L27(313)正交表,表头设计为:
a、b、c、e、d依次放在第1、2、5、8、11列上,a*b、a*c、a*e分别放在(3、4)、(6、7)、(9、10)列上。
Datazjfx;
Inputabcedy@@;
Cards;
11111569112225541133363712123566
12231565123126481313258113213568
13321535211115932122261521333620
22123586222315972231261723132599
23213613233215803111156931222615
31333591321235863223161632312630
331325663321363833321573
;
Procanova;
Classabcde;
Modely=abcdea*ba*ca*e;
Meansabcdea*ba*ca*e/t;
Run;
Meanswiththesameletterarenotsignificantlydifferent.
tGroupingMeanNa
A602.22292
A598.22293
B580.33391
tGroupingMeanNb
A601.22292
BA595.88991
B583.66793
tGroupingMeanNc
A603.44493
A597.88992
B579.44491
tGroupingMeanNd
A602.77892
A600.55693
B577.44491
tGroupingMeanNe
A605.00091
A596.88993
B578.88992
LevelofLevelof--------------y--------------
acNMeanStdDev
113572.0000007.9372539
123562.3333337.3711148
133606.66666762.3083729
213592.6666676.5064071
223608.3333339.8657657
233605.66666722.2785397
313573.66666710.7857931
323623.00000013.0000000
333598.00000029.1376046
最优组合为:
a3、b2、c2、d2、e3
3.2有重复正交试验设计资料的方差分析
例:
有四种药物,每种药物有三水平:
A药(A1=2%,A2=5%,A3=8%),B药(B1=0%,B2=1%,B3=2%),C药(C1=0%,C2=1%,C3=3%)及D药(D1=0%,D2=1%,D3=3%)。
问四种药物对蚊子的50%击到时间有无差别?
采用正交表L9(34)。
相同试验条件下均做4次重复。
试验号
A
B
C
D
50%击到时间/S
1
1
1
1
1
9.41
7.19
10.73
3.73
2
1
2
2
2
11.91
11.85
11.00
11.72
3
1
3
3
3
10.67
10.70
10.91
10.18
4
2
1
2
3
3.87
3.18
3.80
4.85
5
2
2
3
1
4.20
5.72
4.85
3.71
6
2
3
1
2
4.29
3.89
3.88
4.71
7
3
1
3
2
7.62
7.01
6.83
7.41
8
3
2
1
3
7.79
7.38
7.56
6.28
9
3
3
2
1
8.09
8.17
8.14
7.49
Datatwo;
Inputabcd@@;
DoI=1to4;
Inputy@@;output;
End;
Cards;
11119.417.1910.733.73
122211.9111.8511.0011.72
133310.6710.7010.9110.18
21233.873.183.804.85
22314.205.724.583.71
23124.293.893.884.71
31327.627.016.387.41
32137.797.387.566.28
33218.098.178.147.49
;
procanova;
classabcd;
modely=abcda*b;
meansabcda*b/t;
run;
第六章相关分析
第一节相关分析(CORR)
CORR过程的格式:
PROCCORR选项;(HOEFFDING;KENDALL;SPEARMAN,缺省为PEARSON);PEARSON计算直线相关系数;SPEARMAN计算等级相关系数(%);
VAR变量表;指明分析的变量
WITH变量表;指明配对的变量名。
与VAR语句配合使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
PARTIAL变量表;指明偏相关变量即指定相对固定的那些变量,PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。
BY变量表;
RUN;
例1:
测定黑麦草种群特征,密度X1(株/m2)、植株高度X2(cm)、单株丛径X3(cm)及生物量Y(g/m2)数据如下:
密度x1
植株高度x2
单株丛径x3
生物量y
35
40
40
42
37
45
43
37
44
42
60
74
64
71
72
68
78
66
70
65
0.7
2.5
2.0
3.0
1.1
1.5
4.3
2.0
3.2
3.0
1600
2600
2100
2650
2400
2200
2750
1600
2750
2500
Dataone;
Inputx1-x3y@@;
Cards;
35600.71600
40742.52600
40642.02100
42713.02650
37721.12400
45681.52200
43784.32750
37662.01600
44703.22750
42653.02500
;
Proccorr;
Proccorr;
Partialx1;
Varx2x3y;
Rnu;
SimpleStatistics
VariableNMeanStdDevSumMinimumMaximum
x11040.500003.30824405.0000035.0000045.00000
x21068.800005.28730688.0000060.0000078.00000
x3102.330001.0873523.300000.700004.30000
y102315434.005892315016002750
PearsonCorrelationCoefficients,N=10
Prob>|r|underH0:
Rho=0
x1x2x3y
x11.000000.431950.640930.69454
0.21250.04580.0258
x20.431951.000000.629270.76165
0.21250.05130.0105
x30.640930.629271.000000.72882
0.04580.05130.0168
y0.694540.761650.728821.00000
0.02580.01050.0168
1PartialVariables:
x1
3Variables:
x2x3y
PearsonPartialCorrelationCoefficients,N=10
Prob>|r|underH0:
PartialRho=0
x2x3y
x21.000000.509060.71146
0.16160.0316
x30.509061.000000.51366
0.16160.1572
y0.711460.513661.00000
0.03160.1572
第二节回归分析
一、线性回归分析
回归方程在农业领域中的应用:
1、描述某种现象与其影响因素的数量依存关系,如作物产量与施肥、浇水量的关系;2、预测。
把预报因子(自变量)代入回归方程对预报量(因变量)及其波动范围进行估计;3、控制。
根据回归方程进行逆运算,即要求因变量在一定范围内波动,可以通过控制自变量的取值来实现。
1、REG过程(线性模型)
PROCREG;
MODEL依变量=自变量/选项;(指定回归模型中因变量和自变量、回归计算方法、估计值、预测值和残差等)
RUN;
Ø语句说明:
MODEL语句中的“选项”内容:
◆模型选择方法(对多元(三个因素以上)线性回归而言),包括:
STEPWISE(逐步回归)
MODEL依变量=自变量/selection=stepwisesls=0.05sle=0.05;
⏹SLSTAY(SLS)=剔除时概率水平;
⏹SLENTRY(SLE)=选入时概率水平;
FORWARD(逐个选入)
MODEL依变量=自变量/selection=forwardsle=0.05;
BACKWARD(逐个剔除)
MODEL依变量=自变量/selection=backwardsls=0.05;
◆STB:
通径系数(计算标准回归系数);
◆CLM:
条件总体平均数的置信区间。
即当x=m时,若实测100次,则其平均数落在该置信区间的次数为95次(95%的概率);
◆CLI:
观察值的预测区间。
即当x=m时,若实测100次,则测定值落在该置信区间的次数为95次(95%的概率)。
例1、取某水稻土(pH=5.5),加入HCl或Na2CO2改变pH值(x),在30℃下放置28天,然后中和之,测定每100g烘干土中NH4+-N的毫克数(y),试确定变量Y依x的回归方程。
XY
213
39.2
46.6
54.7
64
77.1
813.2
920
Datatwo;
Inputxy@@;
X2=x*x;
Cards;
21339.246.654.764
77.1813.2920
;
Procreg;
Modely=x/clmcli;
Modely=xx2/clmcli;
Run;
TheREGProcedure
Model:
MODEL1
DependentVariable:
y
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValuePr>F
Model129.0002429.000241.000.3563
Error6174.3347629.05579
CorrectedTotal7203.33500
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 复习 方差 回归 部分
![提示](https://static.bingdoc.com/images/bang_tan.gif)