欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    SAS中 INSIGHT 分析家 编程 区别联系.docx

    • 资源ID:12148502       资源大小:413.29KB        全文页数:26页
    • 资源格式: DOCX        下载积分:6金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要6金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    SAS中 INSIGHT 分析家 编程 区别联系.docx

    1、SAS中 INSIGHT 分析家 编程 区别联系论述在SAS中,用INSIGHT、分析家和编程三种方法解决应用问题的区别,各有何优势?适用于哪方面的应用?INSIGHT 利用INSIGHT 进行分析比较直观,它是一种人际交互式的分析,侧重于操作人员同的互动过程,对于一些操作上的修改很简便,有时可以直接在数据上进行修改。它较多的利用了图形的方式呈现给我们结果。通过INSIGHT的现实出来的图形我们可以直观的看出我们研究对象的一些较为显著的性质,同时它在数据的探索方面比较有特色,最直观,便于步步深入,但是对于复杂的分析用INSIGHT有一定的局限。分析家分析家可以提供自动形成的程序,在属性数据分析

    2、和功效函数的计算方面较INSIGHT强,并且分析家给我们提供了多种函数,数据的分析操作,并且在分析所呈现的结果中,给予操作者的具体分析也是很完善的,具体的。这是INSIGHT无法比拟的。但是分析家在一些操作比较麻烦。编程这是功能最为强大尤其是一些特殊或深入分析功能只能用编程实现,并且编程的方式可以根据操作者的个性化需求,有针对性的进行分析,从而定制出最贴合操作者需求的数据分析,但是相对来说,需要记忆复杂的程序,并且编程较难熟练掌握。请选择一个合适的综合案例,分别用三种方法来实现,并说明你的论点。下面通过一个案例来体会这三者的进一步区别:案例(case study)某研究人员需要分析我国固定资产

    3、投资状况的影响因素,选取了5个影响因素:分别为国内生产总值,商品房屋销售额,财政支出,社会消费品零售总额,进出口总额,统计1987-2001年共15年的各项指标吐下所示。试作相关回归分析。年份x1固定投资总额y国内生产总值x2商品房屋销售额x3财政支出x4社会消费品零售总额x5进出口总额x61987110096758201988147216474401989163754219904517201026319912378597199242659381993863714111271199410184950199512577269206201996142712921997179947631998251

    4、33027199929878734200039354423200148627517用编程方法回归分析Proc reg data=mylib.ab;Var y x1-x6;Model y=x1-x6;Run;运行得出结果:如下图跟据结果进一步调试Proc reg data=mylib.ab;Var y x1 x4 x6;Model y=x1 x4 x6;Run;运用分析家 初步分析结果如此时;然后进行逐步回归结果如图:Step1Step2Step3最后结果运用Insight模块分析;得出结果如下;从以上分析不难看出年份,只有财政支出,进出口总额这三个变量能才能够较好的解释固定投资总额的变化。通过

    5、案例对INSIGHT、分析家和编程特点具体分析:从上面例子可以看出,编程的方法在解决此例子时编程的方式跟可以符合操作者个性化的需求,虽然编程的方法需要记忆一些命令,但是在调试模型的过程中仅用更改一下命令中的若干字符即可。用分析家的方式解决此问题我们可以进行比较周全的分析,并且在调试模型的时候通过逐步回归,点击backward elimination就可以呈现出一个最优的模型这个模型中sas帮我们自动的提出了那些对响应变量影响不大的解释变量,而且把剔除的每个过程清晰的呈现出来,让我们看的很明白清楚。而对于INDSIGHT模块,进行回归分析是我们可以清晰的显示出他的直观化的方面,出来的很多回归分析

    6、的各种图,有助于帮助我们从各个方面去理解这个回归的性质。并且在修改的时候也很人性化,直接可以删除不显著的变量,所有的值就会跟着调整,显示出INDSIGHT模块人机的高度互动性。下面是在平时作业中总结的分析家,编程INSIGHT一些操作的区别加上自己的一点点小心得。一、 数据集的建立1.导入Excel数据表的步骤如下:1) 在SAS应用工作空间中,选择菜单“文件”“导入数据”,打开导入向导“Import Wizard”第一步:选择导入类型(Select import type)。2) 在第二步的“Select file”对话框中,单击“Browse”按钮,在“打开”对话框中选择所需要的Excel

    7、文件,返回。然后,单击“Option”按钮,选择所需的工作表。(注意:Excel文件要是2003的)3) 在第三步的“Select library and member”对话框中,选择导入数据集所存放的逻辑库以及数据集的名称。4 ) 在第四步的“Create SAS Statements”对话框中,可以选择将系统生成的程序代码存放的位置,完成导入过程。小结点评:对于外部数据的导入,非常方便,此外,通过txt格式也可以导入。SAS 对于数据的行列删减,增加操作比较复杂,所以如果对数据处理中相关操作比较多,可采用EXCEL导入的方式。2.用INSIGHT创建数据集 1)启动SAS INSIGHT模

    8、块,在SAS INSIGHT:“Open”对话框的”逻辑库“列表框中,选定库逻辑名2)单击“新建”按钮 ,在行列交汇处的数据区输入数据值(注意:列名型变量和区间型变量)3)数据集的保存:“文件” “保存” “数据” ; 选择保存的逻辑库名,并输入数据集名; 单击“确定”按钮。即可保存新建的数据集。小结点评:此法比较容易。1)Tools-Table editor ,打开VIEWTABLE窗口 2)单击表头顶端单元格,输入变量名3)在变量名下方单元格中输入数据4)变量类型的定义:右击变量名/column attributes.点评:此法比较容易,但要手动输入,比较麻烦,此外对于删除行这个功能比较麻

    9、烦。DATA 语句;/*DATA步的开始,给出数据集名*/Input 语句;/*描述输入的数据,给出变量名及数据类型和格式等*/Cards /*数据行的开始*/数据行; /*数据块的结束*/RUN; /*提交并执行*/点评:此种方式可以输出较为个性化的表,是前几中方式所无法比拟的。二、基本统计分析1. 用INSIGHT计算统计量 1)在INSIGHT中打开数据集,在菜单中选择“Solution(解决方案)”“Analysis(分析)”“Interactive Data Analysis(交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集,单击“Open(打

    10、开)”按钮,即可在INSIGHT中打开数据窗口2)选择菜单“Analyze(分析)”“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据集的变量列表中,选择分析变量X、分组变量Y。3)单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。4) 选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”,单击“OK”按钮,即可得到变量按分组的各种矩统计量(Moments)和分位数(Quantiles)点评: 用INSIGHT对于作图比较直观,可以做出的图新相对

    11、显示直观,明了,适合进行简单的数据分析。2. 用“分析家”计算统计量 1)启动“分析家”,选择主菜单“Solutions(解决方案)”“Analysis(分析)”“Analyst(分析家)”,打开“分析家”窗口。选择主菜单“File(文件)”“按SAS名称打开”,打开“选择成员”对话框,选择数据集。2)通过Summary Statistics菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“Summary Statistics(汇总统计量)”,打开“Summary Statistics”对话框,选择变量列表中分析变量,单击“Analysis

    12、”按钮,选定分析变量单击“Statistics”按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出可以计算的所有统计量。3) 通过Distributions菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的分析变量,单击“Analysis”按钮。单击“OK”按钮,即可得到关于分析变量的矩统计量和基本统计测度。点评:此法可以进行较为复杂的数据分析。1)FREQ过程:FREQ过程包括多个控制频数输出与检验的语

    13、句和选项,格式如下:PROC FREQ DATA = ; TABLES ; FORMAT . . ;RUN;其中PROC FREQ语句调用FREQ过程,标志FREQ过程的开始;TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。RUN;2. MEANS过程:MEANS过程的一般格式:PROC MEANS DATA=;VAR ;BY ;CLASS ;RUN;PROC MEANS语句后的选项主要用来指定所要计算的统计量,默认情况下,MEANS过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。VAR语句引导所要进行分析的所有变量

    14、的列表,SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。BY语句与CLASS语句所指定的分类变量用来进行分组统计,但输出格式不同。使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是:使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。使用BY语句之前先排序,可以在按分组变量统计:小结点评:此种方式通过统计量关键字可以输出较为个性化的数据分析,输出操作者需要的

    15、数据分析,是前几中方式所无法比拟的。3. UNIVARIATE过程(推荐使用) UNIVARIATE过程的一般格式为:PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ;RUN;小结点评:UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。UNIVARIATE输出包括五个部分:第一部分是矩统计量;第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位

    16、数、众数,分散程度统计量包括标准差、方差、极差、四分位间距;第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验;第四部分为各个重要的分位数;第五部分是观测数据的五个最低值和五个最高值。三、正态性检验1. 分布拟合图用“insight”绘图;选择菜单“Analyze(分析)”“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框 此为设置正态性的方式1)选择菜单“Curves(曲线)”“QQ Ref Line(QQ参考线)”,打开“QQ Ref Line”对话框。选择“Method(方法)”栏下的“Least Squares(最小二乘

    17、)”单击“OK”按钮得到带参考线的QQ图2) 选择菜单“Graphs(图形)”“QQ Plot(QQ图)”,打开“QQ Plot”对话框。选择“Distribution(分布)”栏下的“Lognormal QQ Plot(对数正态QQ图)”,单击“OK”按钮得到对数正态QQ图注意:前两种检验都是从图线上直观看出结果,不是很准确,最后这种是最准确的!建议大家做正态性检验时,用这种方法!1) 在INSIGHT中继续上述操作:选择菜单“Curves(曲线)”“Test for Distribution(分布检验)”,打开“Test for Distribution”对话框。单击“OK”按钮,得到分析

    18、变量的经验分布和拟合的正态累计分布曲线图。2) 列举了拟合正态分布的均值(即样本均值)和标准差(即样本标准差),并提供了Kolmogorov D统计量的数值0.1377,而相应的p值 0.05 = ,所以不能拒绝原假设,可以认为分析变量总体分布为正态分布。这是检验的一步,注意看P值与0.05的比较,当P值大于0.05时,就可以确定这个分析变量总体分布为正态分布!在“分析家”绘图1. 绘制分布拟合图和QQ图 1) 首先在“分析家”中打开数据集; 2)选择主菜单“Statistics” “Descriptive” “Distributions”,打开“Distributions”对话框。小结:要选

    19、择分布拟合图和QQ图。2. 分布检验小结1)继续上述步骤。 在分析家窗口的项目管理器中双击“Fitted Distributions of Gcjg”项,得到检验结果2)分析结果时,注意看P值与0.05的比较,当P值大于0.05时,就可以确定这个分析变量总体分布为正态分布!用编程方法进行检验用编程方法是最方便的方法,也比较省时间,所以建议大家用这种方法!使用UNIVARIATE过程 在PROC UNIVARIATE语句中加上NORMAL选项可以进行正态性检验。例如:proc univariate data = Mylib.yczl normal; var weight; (分析变量!)run;

    20、检验结果:结果中给出了分析变量的四种正态性检验结果,其中Shapiro-Wilk检验是首选的。当看到p值很大大于0.05,所以在0.05水平下不能拒绝原假设,即认为分析变量服从正态分布Part3五、假设实验1 总体均值的区间估计 用“insight”计算统计量1) 启动INSIGHT模块,并打开数据集;2) 选择菜单“Analyze(分析)”“Distribution(Y)(分布)”;3) 在打开的“Distribution(Y)”对话框中进行区间估计的设置将分析变量放入Y4)单击Output,在打开的对话框中选中Basic Confidence Interval5) 两次单击OK按钮结果包括

    21、一个名为“95Confidence Intervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Estimate)、置信下限(LCL)和置信上限(UCL)小结:若想得到其他置信水平的置信区间:选择“表” “置信区间” “其他”,然后可以修改置信水平 用“分析家”计算统计量1) 在“分析家”模块中打开数据集;2) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample t test for a Mean(单样本均值t - 检验)”;3) 在打开的“One Sample t test for a Mean”对话框中设置

    22、均值的置信区间先选择分析变量,然后单击“test”后选择“interval”,写置信区间 用编程方法计算统计量Means过程实现: proc means data=sasdata.yczl clm alpha=0.05;/*关键字clm用于计算置信区间,“alpha=”用于指定显著性水平 */var weight; (分析变量!)run;ttest过程实现: proc ttest data=sasdata.yczl alpha=0.05; /* “alpha=”用于指定显著性水平 */var weight;run;univariate过程实现: proc univariate data=sas

    23、data.yczl cibasic(alpha=0.05);/* 关键字“cibasic(alpha=)”用于指定显著性水平 */var weight;run;重点介绍使用TTEST过程:TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。语法格式 PROC TTEST ; CLASS ; VAR ; PAIED ; BY ; RUN;第一句和最后一句是必需的,中间的可以交换位置!CLASS语句所指定的分组变量是用来进行组间比较的;而BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。VAR语句引导要检验的所

    24、有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验。 PAIED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见表变量名列表形式 产生的效果 a*b a b a*b c*d a b, c d (a b)*(c d) a c, a d, b c, b d (a b)*(c b) a c, a b, b c PROC TTEST语句后可跟的选项及其表示的含义如表所示选项 代表的含义 data = 等号后为SAS数据集名,指定ttest过程所要处理的数据集,默认值为最近处理 的数据集 alpha = ci = 等号后为“equal,

    25、umpu, none”中的一个,表示标准差的置信区间的显示形式, 默认为ci = equal cochran 有此选项时,ttest过程对方差不齐时的近似t检验增加cochran近似法 h0 = 等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为0 2. 总体均值的置信区间1) 使用最简代码求均值、标准差的置信区间: proc ttest data = sjcj; run;2)结果分析:代码运行结果给出两个变量在95%置信水平下的均值、标准差的置信区间,以及对原假设0= 0所作的t检验的p值3. 单样本总体均值的假设检验 proc ttest h0=70 alpha = 0.01 d

    26、ata=sjcj; var A; run;结果分析: 代码运行结果除了给出变量A在99%置信水平下的均值、标准差的置信区间外,还给出对假设0 = 70,所作的t-检验的p值小结:颜色一样的地方是代码所代表的含义,一一对应的显示t统计量的p值大于0.05时,不能拒绝原假设:均值 = 70。4. 配对两样本均值的假设检验 proc ttest data=sjcj; paired A*B;(两个分析变量!要相关的) run; 代码运行结果给出了对原假设1 2 = 0所作的t检验的p值结果分析:显示t统计量的p值 0.05,因此拒绝原假设,p值0.05,不能拒绝原假设。5. 独立两样本均值的假设检验过

    27、程TTEST还可以用于进行独立双样本均值比较的t检验法。它的用法为 PROC TTEST DATA = ; CLASS ; VAR ; RUN;使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。讲分析变量记录在同一分析变量f之下,而两种方法的差别是由分类变量g的值加以区分的。检验代码如下:原理类似后面相关分析和回归分析中的建数据集! proc ttest data=zzcpsj; class g; var f; run;结果分析:1)在检验中,先看其最后关于方差等式的检验结果,检验方差相等是

    28、用的F 统计量,相应的p值0.05 = ,不能拒绝方差相等的假设;当P值0.05时,方差不相等,看第三步。2) 在方差相等的前提下,检验均值差异使用Pooled方法,对应统计量的t值为2.16,相应的p值为0.05 = ,所以两种方法所需的时间是有显著差异的,若p值0.05,则两种变量没有显著差异。3) 在异方差的情况下,使用Satterthwaite法检验均值的差异。关于置信区间1. 总体比例的置信区间1) 在“分析家”中打开数据集;2) 选择主菜单“Edit(编辑)”“Mode(模式)”“Edit(编辑)”,使数据集可以被编辑(修改);3) 选择主菜单“Data(数据)”“Transform(变换)”“Recode Ranges(重编码范围)”,打开“Recode Ranges Information”对话框4) 单击“OK”按钮,打开“Recode Ranges”对话框,按图3-18右所示生成新变量price_f注意列类型要改变,还要写明名称!6) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample Test for a Proportion(单样本比例检验)”;7) 在打开的“One Sample Test for a Proportion”对话框中选择


    注意事项

    本文(SAS中 INSIGHT 分析家 编程 区别联系.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开