SAS08研究生复习文档格式.docx
- 文档编号:8298514
- 上传时间:2023-05-10
- 格式:DOCX
- 页数:25
- 大小:29.35KB
SAS08研究生复习文档格式.docx
《SAS08研究生复习文档格式.docx》由会员分享,可在线阅读,更多相关《SAS08研究生复习文档格式.docx(25页珍藏版)》请在冰点文库上搜索。
如12456
⏹字符型:
如ABnameage
◆字符型变量后应加”$”,
◆当字符变量中有空格存在时应加“&
“,此时数据行输入允许字符变量数据中含有一个空格,而下一变量与该字符变量的数据之间至少应空两个空格,以表明字符变量的结束。
◆字符型变量可以使用缩写的形式,主要有两种类型:
如果在程序中定义了x1、x2、x3、x4和x5,则可以用记号x1-x5表示上述五个变量。
●按数据输入的先后顺序列出变量名;
●缺省数据用小数点“.”表示
●字符变量一般长8个字节,除非在前面用attriblength或informat语句定义变量的长度。
例:
dataone;
Attribnamelength=$11;
Inputname$&
age;
Cards;
Lihua29
SunLi-ning25
;
procprint;
run;
四、行保持说明符:
@@
@@符允许在一个数据行中输入多条观察值,减少数据占行数。
@@符写在INPUT语句的末尾。
datacc;
inputa$b@@;
cards;
a1b2c3d4e6
run;
五、赋值语句
1、格式:
变量=表达式;
是先计算表达式值,而后将该值赋给左边的变量。
表达式是一个或几个变量名、函数名和常数用运算符或括号连接起来的式子。
如x=a+b;
a=a+b
常见的赋值语句位于input语句之后,并对input语句中定义的变量进行计算。
DATAa;
INPUTab@@;
X=a*b;
x=a+b;
x=a/b;
x=a-b;
Y=LOG(X);
CARDS;
123456
PROCPRINT;
RUN;
六、循环语句
常用的SAS循环语句有步长型和离散型两种形式。
1>
步长型循环语句
DO循环变量=初值TO终止值BY增量;
Input变量@@;
output;
END;
若无选项[BY增量],则系统默认增量为1。
步长型循环语句的执行过程为:
①将初值赋给循环变量。
②判断循环变量是否超过终止值,若循环变量超过终止值则结束循环;
否则执行③。
③顺序执行SAS语句。
④给循环变量增加一个“增量”,转向②。
2>
离散型循环语句
DO循环变量=“值1”,“值2”,…,“值n”;
Input变量;
其它语句;
循环变量每取一个值,执行一遍循环体,一直到所有的值取完后,结束循环。
例1:
某厂医务室测定5名氟作业工人在工前、工中和工后4小时的尿氟浓度(umol/L)。
问氟作业工人在这三个不同时间的尿氟浓度有无差别?
工人编号
工前(w1)
工中(w2)
工后(W3)
N1
90.53
142.12
87.38
N2
88.43
163.17
65.27
N3
47.37
63.16
68.43
N4
175.08
166.33
210.54
N5
100.01
144.75
194.75
Datanew;
Don=“n1”,“n2”,“n3”,“n4”,“n5”;
Dow=1to3;
Inputy@@;
output;
End;
end;
90.5388.4347.37175.8100.01
142.12163.1763.16166.33144.75
87.3865.2768.43210.54194.75
DoA=1to5;
DoP=1to3;
Output;
90.53142.1287.38
88.43163.1765.27
47.3763.1668.43
175.08166.33210.54
100.01144.75194.75
第三章过程步与过程步语句
1、形式:
PROC过程名选项;
[其它相关过程步语句]
RUN;
常用过程步语句
VAR语句
VAR变量表;
指明分析变量(变量表列出的),指定将要被过程分析处理的变量,未出现在变量表中的数据将不参与计算。
一个过程中无VAR语句时,数据集中的全体数值变量都参与运算。
CLASS语句
CLASS变量表;
指明分类的依据变量名。
BY语句
BY变量表;
指明分组变量,依BY变量分组进行处理,结果以分组形式输出。
MODEL语句
MODEL依变量=自变量表(或效应)[/选项];
指明分析所用的模型,即给出模型包含的自变量和因变量的个数以及变量名。
RUN语句
使前面的过程被执行。
常用过程步:
PRINT过程
读入数据集NEW中的数据,将变量排成易读的形式输出。
sas数据集的排序(SORT)
将sas数据集中的观测按一个或多个变量的数值大小进行排序,把结果存放在新的sas数据集里,或者代替原始数据集。
SORT语句格式:
PROCSORT;
BY变量1变量2…;
By语句中的Descending表示变量值按降序排列,缺省时表示按升序排列。
第四章常用的生物统计分析
第一节描述性统计
1、MEANS过程的格式:
PROCMEANS选项;
[语句;
]
其中选项有下列几种:
DATA=数据集名指定被分析的数据名,缺省时为当前数据集。
MEAN计算平均值
STD标准差
VAR方差
CV变异系数
STDERR标准误
RANGE极差
MIN最小值
MAX最大值
SUM总和
TT值,总体均值为零
PRTT值的最大绝对值的概率。
常用语句有下列几种:
用于指明分析变量。
若该语句缺省,除去BY、CLASS语句中列出的变量以外,数据集中的所有其他数值变量将依次被分析(计算)。
将数据集中的全体观测值以CLASS语句中变量定义观测组,分别计算各观测组的描述性统计量。
计算结果以CLASS变量的不同取值,以表格的形式输出。
BY变量名表;
使用BY语句后,MEANS过程先按BY变量的取值形成多个观测组,然后按组别分别计算各组对应的描述性统计量,结果以观测组的形式输出。
注意在使用BY语句前,要求对BY变量已排过序。
调查某植物种群密度(分蘖数/m2),共测定10个样地,得结果如下:
23273121293537194124,试求该种群密度的平均值(mean)、平均数的标准误(stderr)、标准差(std)、变异系数(cv)。
Dataone;
23273121293537194124
procmeansmeanstderrstdcv;
vary;
第二节TTEST测验
1、两个样本平均数的成对比较(测验因实验设计不同而分成二组有对应关系的数据的平均数是否相同)
2、成组数据均值比较过程TTEST过程(测验因实验设计不同而分成二组数据的平均数是否相同)
DATANEW;
INPUTXY@@;
Z=X–Y;
XY值
PROCMEANSTPRT(其它选项);
VARZ;
[其它语句;
其中选项:
TT值,总体均值为零。
INPUTNo$X;
No$X值
ProcTtestoptions;
VAR变量;
Class变量;
BY变量;
Run;
为测定A、B两个病毒对烟草的致病力,取8株烟草,每一株皆半叶接种A病毒,半叶接种B病毒,以叶面出现的枯斑数作为致病力强弱的指标,试测验两种病毒的致病力的差异。
AB
910
1711
3118
1814
76
87
2017
105
inputxy@@;
z-x-y;
procmeansmeanstdtprt;
varz;
例2:
人工模拟气候变暖对草地生物量的影响,试验设加温和对照两个处理(trt),重复6次(rep),连续测定4年(year),试分析气候变暖对不同年度草地生物量(y)的影响。
处理
重复
1999年2000年2001年2002年
加热
1
2
3
4
5
6
179.6105.3210.46124.5
182.8107.7200.13103.5
196.9142.6184.06113.7
180.7120.5164.98127.8
154.8134.8197.28108.9
204.9116.7180.42162.4
对照
174.9176.1277.8124.4
156.2120.4216.1150.04
254.2158.1198.51123.8
200181.1173.35145.2
215.5124.5246.09165
209.4150.4214.76166.1
Databiomass;
dotrt=1to2;
dorep=1to6;
doyear=1to4;
inputy@@;
end;
procsort;
byyear;
procttest;
classtrt;
byyear;
第三节方差分析
在一个分类变量(自变量)不同水平下或是在多个分类变量的水平组合下测量一个连续反应变量(因变量),这个反应变量的总变异可被解释为分类变量的效应(即主效应,如A,B分别表示由于分类变量A和B的不同水平引起的变异)或分类变量的组合产生的效应(即交互效应,如A*B表示A与B的交互作用),余下的变异为随机误差。
方差分析的基本思想是将所有观察值的总变异分解成不同的变异来源,即对总变异的自由度和平方和进行分解,进而获得不同变异来源的总体方差的估值。
通过构建适当的F值,进行F测验,完成多个样本平均数之间差异显著性测验。
当处理效应为固定效应时,尚可对各个处理平均数进行多重比较。
一、方差分析(ANOVA)过程
过程格式:
*PROCANOVA选项(DATA=SAS数据集);
*CLASS分类变量名列表;
*MODEL依变量=自变量效应表/选项;
MEANS自变量效应名列表/选项;
TESTH=效应变量名E=误差项;
*RUN;
语句说明:
CLASS变量表:
指明分类变量,该语句必须放在MODEL语句之前。
MODEL依变量=自变量效应表:
定义分析所用的线性数学模型即指明方差分析中因变量(Y)及因素效应名称(分类变量或分类变量的组合)。
常用的模型定义语句有:
书28页表2-1
Y=a单因素主效模型
Y=ab两因素主效模型
Y=aba*b两因素带互作模型
Y=abca*ba*cb*ca*b*c三因素带互作模型;
MEANS语句:
计算效应表所列因素效应的各水平均值,并对MEANS语句中列出的主效应和互作效应作显著性检验(多重比较)。
选项用于设定多重比较方法等,常用的选项有LSD(最小显著差数法)DUNCAN(新复极差测验)TUKEY(固定极差测验法)。
显著水平的设定ALPHA=α,缺省值为0.05。
TESTH=效应表E=效应:
用以指定某效应作为误差项。
缺省时,以残差MSE作为误差项。
其中:
H=效应变量名用以指定MODEL语句中作为假设检验的效应,
E=误差项用以指定作为误差项的效应。
2〉裂区试验设计
Procanova;
Class区组效应主、副处理效应;
ModelY=区组效应主、副处理效应主、副处理互作效应主处理、区组互作效应;
MEANS主、副处理效应/T;
TESTH=主效应E=主效应*区组效应;
研究水分和肥料两个因素与番茄产量之间的关系,其中水分设三个水平(A1-100%、A2-75%、A3-50%)、肥料设两个水平(B1-20kg、B2-40kg),组成6个水分-肥料试验组合,观察其对番茄的增产效果,每个组合3次重复,各个组合的产量(kg/m2)结果如下表,试进行方差分析。
(随机试验设计和随机区组试验设计)
表1:
水分和肥料组合对番茄产量的影响
水分(A)
肥料水平(B)
B1
B2
A1
33.423.531.839.218.2
27.533.531.641.027.8
A2
20.224.622.318.524.5
28.215.223.420.919.5
A3
25.233.127.429.122.2
20.227.831.329.624.2
Doa=1to3;
Dob=1to2;
Dorep=1to5;
procanova;
classabrep;
modely=aba*brep;
meansab/talpha=0.01;
方差分析计算过程
变异
来源
离均差平方和(SS)
自由度
(df)
均方
(MS)
F值
P值
A
B
A*B
SSA=QA-C
SSB=QB-C
SSAXB=QAB-C-SSA–SSB
p-1
q-1
(p-1)(q-1)
SSA/dfA
SSB/dfB
SSAxB/dfAxB
MSA/MSE
MSB/MSE
MSAB/MSE
*
误差
SSE=SST-SSA-SSB-SSAxB
Pq(r-1)
SSe/dfe
(MSE)
总计
SST=W-C
pqr-1
第四节相关分析与回归分析
一、相关分析(CORR)
CORR过程的格式:
PROCCORR选项;
(HOEFFDING;
KENDALL;
SPEARMAN,缺省为PEARSON);
PEARSON计算直线相关系数;
SPEARMAN计算等级相关系数(%);
指明分析的变量
WITH变量表;
指明配对的变量名。
与VAR语句配合使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
PARTIAL变量表;
指明偏相关变量即指定相对固定的那些变量,PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。
测定某植物种群特征,密度X1(株/m2)、植株高度X2(cm)、单株丛径X3(cm)及生物量Y(g/m2)数据如下:
密度x1
植株高度x2
单株丛径x3
生物量y
35
40
42
37
45
43
44
60
74
64
71
72
68
78
66
70
65
0.7
2.5
2.0
3.0
1.1
1.5
4.3
3.2
1600
2600
2100
2650
2400
2200
2750
2500
Datacorr1;
Inputx1x2x3y;
35600.71600
40742.52600
40642.02100
42713.02650
37721.12400
45681.52200
43784.32750
37662.01600
44703.22750
42653.02500
proccorr;
varx1x2x3y;
partialx1;
二、回归分析
一)、线性回归分析
回归方程在农业领域中的应用:
描述某种现象与其影响因素的数量依存关系,如作物产量与施肥、浇水量的关系;
2、预测。
把预报因子(自变量)代入回归方程对预报量(因变量)及其波动范围进行估计;
3、控制。
根据回归方程进行逆运算,即要求因变量在一定范围内波动,可以通过控制自变量的取值来实现。
1、REG过程
PROCREG选项;
MODEL依变量=自变量/选项;
(指定回归模型中因变量和自变量及有关回归计算、估计、预测值和残差等)
PROCREG:
选项:
CORR:
给出简单相关系数;
MODEL语句:
模型选择方法(对多元(三个因素以上)线性回归而言),包括:
STEPWISE(逐步回归)、FORWARD(逐个选入)、BACKWORD(逐个剔除)。
SLSTAY(SLS)=剔除时概率水平;
SLENTRY(SLE)=选入时概率水平;
STB:
通径系数(计算标准回归系数);
CLM:
条件总体平均数的置信区间,即当x=m时;
若预报100次,则其中预测值的平均数落在该置信区间的次数为95次(95%的概率);
CLI:
观察值的预测区间,即当x=m时;
若预报100次,则其中预测值落在该置信区间的次数为95次(95%的概率);
取某水稻土(pH=5.5),加入HCl或Na2CO2改变pH值(x),在30℃下放置28天,然后中和之,测定每100g烘干土中NH4+-N的毫克数(y),试确定变量Y依x的回归方程。
Xy
21339.246.654.764
77.1813.2920
datanew;
x1=x*x;
procreg;
modely=x;
modely=xx1/clmcli;
测定某植物种群的密度(X1),每丛植株小穗数(X2),百粒重(X3,g),高度(X4,cm)和每m2生物量(y,g)的关系,得结果如下,试确定变量y依x的最优线性回归方程。
Inputx1-x4y@@;
10233.611315.7
9203.610614.5
10223.711117.5
13213.710922.5
10223.611015.5
10233.510316.9
8233.31008.6
10243.411417.0
10203.410413.7
10213.411013.4
10233.910420.3
8213.510910.2
6233.21147.4
8213.711311.6
9223.610512.3
modely=x1-x4/selection=stepwisesls=0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS08 研究生 复习