同济医学院-《SAS》课件-求基本统计量过程.ppt
- 文档编号:17922075
- 上传时间:2023-08-05
- 格式:PPT
- 页数:25
- 大小:451KB
同济医学院-《SAS》课件-求基本统计量过程.ppt
《同济医学院-《SAS》课件-求基本统计量过程.ppt》由会员分享,可在线阅读,更多相关《同济医学院-《SAS》课件-求基本统计量过程.ppt(25页珍藏版)》请在冰点文库上搜索。
求基本统计量过程Procedureofdescriptivestatistics,SAS应用,蒋红卫Email:
JHWCCC21CN.COM,程序选择,计量资料描述性研究集中趋势:
meanmedian离散程度:
stdvarianceCVrange分布检验(正态性检验)计数资料描述性研究率(rate)构成比(propotion)比(ratio),MEANS过程UNIVARIATE过程,过程名,FREQ过程,三个求基本统计量过程,Means过程Univariate过程Freq过程,一MEANS过程,用于计量资料(numericaldata)描述性分析。
求均数(mean)、标准差(standarddeviation)、最大值(maximum)、最小值(minimum)等基本统计量,产生包含统计结果的数据集以便作为其他过程的输入数据集。
1功能,2格式,PROCMEANS;VAR变量;FREQ变量;ID变量;BY变量;OUTPUT选择项;,3语句说明:
1、PROCMEANS语句PROCMEANS;1)选择项包括:
DATA=SAS数据集指明需做MEANS分析的SAS数据集名。
ALPHA=n指定计算可信限的值,缺省=0.05。
NOPRINT不打印统计值,仅建立一个新数据集。
MAXDEC=n输出结果取n位小数,缺省值为7。
VARDEF=DF计算方差时的除数是自由度(N-1)。
=N计算方差时的除数是观测数。
PROCMEANS;,N无缺省值的观察数MEAN均值STD标准差MIN最小值MAX最大值RANGE极差SUM所有不缺省项变量值的和VAR方差USS未修正的平方和CSS修正的平方和CV变异系数,2)统计关键字选择项,STDERR标准误T总体均值为0的学生t值PRTt值的最大绝对值的概率SKEWNESS偏度KURTOSIS峰度CLM上下可信限值LCLM可信限下限值UCLM可信限上限值,2)统计关键字选择项,3)缺省时,自动地为每个数值型变量输出五个统计量:
N、MIN、MAX、MEAN、STD。
2、主要语句,
(1)VAR语句:
指明需要计算均数等统计量的变量。
如果求多个变量的统计量,多个变量之间用空格分开,列于VAR之后。
如果不加此语句,则MEANS过程对数据集中所有数值型变量进行计算;
(2)FREQ语句:
指明频数处理变量(3)ID语句:
输出的数据集包含该语句所指的变量(4)BY语句:
指明用以分组统计的变量。
使用BY语句之前,数据集一定按BY语句中的变量排过序。
(5)OUTPUT语句:
产生包含有基本统计值的数据集,OUTPUT语句OUTPUTOUTSAS数据集统计关键字=变量名清单;功能:
将MEANS过程产生的统计值输出到一个新的SAS数据集。
OUTSAS数据集指定计算结果放入新的数据集里。
统计关键变量名清单指明新数据集中想要的统计项,并给包含这些统计项的变量起名,这些名字将作为统计值在新数据集中使用。
统计关键字为的任意统计量,变量名清单为VAR语句中的变量名,可以取一个,也可以取多个。
需要注意的是,LCLM,UCLM(同时指定输出为双侧;如只选一个,输出单侧可信区间)可以重新对统计量命名,也可用原名;格式n=nmean=meanprt=p,例1:
PROCSORTDATA=CLASS1;BYSEX;PROCMEANSDATA=CLASS1;VARHEIGHT;BYSEX;RUN;PROCMEANSDATA=CLASS1;VARHEIGHT;OUTPUTOUT=NEWMEAN=MEANHEIGHT;RUN;,Datagmean;Inputx;Y=log10(x);Cards;2530323428Procmeansnoprint;Vary;Outputout=gmean1mean=y1;Datagmean2;Setgmean1;X1=10*y1;Procprint;Varx1;Run;,例2,例16-2某地区1953至1957年人口的自然增长率为25、30、32、34、28,求平均增长率。
二UNIVARIATE过程,1.格式:
PROCUNIVARIATEdata=SAS数据集normalplot;VAR变量;FREQ变量;ID变量;OUTPUTOUT=datasetkeyword=name;,2功能:
求数据集中某(些)变量均数(mean)百分位数(percentiles)、极值(extremes)等基本统计量。
与MEANS过程的区别在于它可以计算更多的反应数据分布的统计量。
Normal:
用于正态性检验。
Plot:
给出干叶图、箱式图及正态概率图,检验数据是否服从正态分布。
例2:
测定30名正常男子血浆中性脂肪含量(mg/lwml)的结果如下:
163219313169281264124942241452851072694166622491361001994079423512012856080217252165107,Libnameb“c:
zfhl”;datab.blood;inputx;cards;163219313169281264124942241452851072694166622491361001994079423512012856080217252165107;procprint;run;procunivariatenormalplot;varx;run;,5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.045.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69,例3某地随机抽取正常成年男子120名,其红细胞数如下,试作该批样本的频数表。
三FREQ过程,1格式:
PROCFREQdata=SAS数据集;TABLES变量*变量*变量;2.功能:
求一维或多维频数表(frequencytable)。
3说明:
(1)PROCFREQ:
调用FREQ过程;
(2)data=SAS数据集:
指明需处理的数据集;(3)TABLES语句:
指明需要计算频数的变量以及频数表的列表方法。
如果求一维频数表,则将求频数的变量列于TABLES之后即可;如果求多个变量的的联合频数(多维频数表或称列联表),将需要计算频数的变量用星号“*”分开,其中最后一个变量将用于列变量(纵标目),倒数第二个变量为行变量(横标目),其余变量为分层变量,每一层列一个频数表;一个FREQ过程可以有多个TABLES语句,即可以同时列出多个频数表。
TABLES语句请求式,请求式由一个或多个“*”号与变量连接组成。
如:
TABLESA;输出一维频数表。
TABLESA*B;输出以A变量为行、B变量为列的二维表列联表。
TABLESA*B*C;输出以A变量为页、B变量为行、C变量为列的三维表列联表。
TABLESA*(BC);等同于TABLESA*BA*C。
TABLESAB*(CD);等同于TABLESA*CA*DB*CB*D。
TABLES(A-C);等同于TABLESABC。
TABLES变量*变量/选择项,1、选择项请求统计假设检验选择项:
CHISQ/CMH请求附加的表格信息的选择项:
EXPECTED打印在独立性(或齐性)假设下格子的理论频数。
MISSPRINT带缺省值的频数列出来,但不参加统计量计算。
禁止打印选择项NOCOL禁止打印列联表中各格的列百分数。
NOFREQ禁止打印列联表中各格的频数。
NOPERCENT禁止打印列联表中各格的百分数。
NOPRINT禁止打印表格,但允许打印由CHISQ、MEASURES、CMH和ALL所指定的统计值。
NOROW禁止打印列联表中各格的行百分数。
例3:
产生一个频数表产生多个频数表产生两个变量的列联表产生三个变量的列联表按LIST格式打印列联表建立输出数据集,PROCFREQDATA=CLASS1;TABLEAGE;RUN;PROCFREQ;TABLESEXAGE;RUN;PROCFREQ;TABLESEX*AGE;RUN;,Procfreq;Tablesex*age*height;Run;Procfreq;Tableheight*weight/list;Run;Procfreq;Tablessex*age/out=newnoprint;Procprintdata=new;Run;,课堂练习,1建立新的数据集aa,只保留变量n05(年龄),n07(吸烟),n111(初潮年龄),n26(宫颈糜烂)。
并把年龄(n05)分为30岁,30,50三组。
2对上述所有计数资料和计量资料分别作描述性分析。
(N05,N111)3描述不同年龄段、不同吸烟状况、不同职业、不同文化程度、不同经济状况的妇女与宫颈糜烂关系?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 同济 医学院 课件 基本 统计 过程