欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    最新08相关分析与回归分析.docx

    • 资源ID:16469805       资源大小:199.91KB        全文页数:98页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    最新08相关分析与回归分析.docx

    1、最新08相关分析与回归分析08相关分析与回归分析第八章 相关分析与回归分析医学上人的身高与体重、血压与年龄、药物剂量与疗效、肺活量与体重和胸围等均有一定的联系。说明客观事物或现象相互间数量关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务。而研究某个结局(因变量)与其它影响因素(自变量、解释变量、协变量)之间的数量关系,并用函数形式表示出来,则是回归分析要解决的问题。下面依次介绍有关内容。8.1相关分析8.1.1概述描述两个变量间相关关系的统计指标称为相关系数。现以两个变量的直线相关分析为例,说明相关系数的意义。研究变量X和Y的直线相关关系用直线相关系数(记为r),其计算公式为: (

    2、8.1)其值为1r1。r值为正表示正相关,即X和Y同时增大或减小,变化趋势是同向的;反之,r值为负表示负相关,即X和Y呈反向变化。r等于零为零相关,表示X和Y无直线相关关系;r值的绝对值为等于1为完全相关,即X和Y严格服从直线关系。在生物界由于影响因素众多,因此r值一般界于1与1之间。r的绝对值越接近1,表示两变量间直线相关程度越高。r为总体相关系数的样本估计值,所以一般还要需做=0的假设检验。在用相关分析的方法解决实际问题时,应根据资料类型和分析要求,选择恰当的方法,SAS中可作如下相关分析:统计量意义SAS过程资料要求直线(Pearson)相关系数两个变量间的直线相关性CORR 二元正态分

    3、布资料等级(Spearman)相关系数两个变量间的等级相关性CORR 二元非正态分布或等级资料复相关系数一个变量与一组变量间的相关性CANCORR 多元正态分布资料典型相关系数两组变量的相关性CANCORR 多元正态分布资料偏相关系数固定其它变量时两个变量间的相关性CORR 本节介绍PROC CORR的应用。CANCORR的用法详见多元统计分析部分。但PROC REG中会给出复相关系数。8.1.2 CORR过程1. CORR过程的语句组成。 *PROC CORR options; *VAR 变量表; WITH 变量表; PARTIAL 变量表; WEIGHT 变量; BY 变量表; END;2

    4、. CORR过程的语句说明。(1) PROC CORR语句 格式: PROC CORR options;选择项主要有: PEARSON 计算通常的Pearson相关系数,即直线相关系数,是缺省值。 SPEARMAN 计算Spearman等级相关系数。 KENDALL 计算Kendall 系数。 OUT=dataset 产生含有Pearson相关系数的一个新数据集。 NOMISS 将带有某一变量缺失值的观测值从所有计算中除去。 NOSIMPLE 取消打印每个变量的描述统计量。(2) WITH语句指明配对的变量名。与VAR语句配合使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现

    5、的变量。使用WITH语句后,把变量分成WITH组和非WITH组,只计算两组间两两变量的相关系数。(3) PARTIAL语句作偏相关分析时,指定相对固定的那些变量,此时将自动激活NOMISS选择项。注意PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。8.1.3 直线相关分析与偏相关分析例8.1 研究肺活量时测得10名女中学生体重x1(kg)、胸围x2(cm)、呼吸差x3(cm)及肺活量y(ml),数据如下:表8.1 10名女中学生体重、胸围、呼吸差及肺活量体重x1(kg)胸围x2(cm)呼吸差x3(cm)肺活量y(ml)35600.7160040742.5260040642.02

    6、10042713.0265037721.1240045681.5220043784.3275037662.0160044703.2275042653.02500下面先用DATA步建立计算用数据集,再用PROC CORR作两两变量间的直线相关分析,最后作固定体重时肺活量与胸围和呼吸差的偏相关分析。DATA CORR1;INPUT X1 X2 X3 Y;CARDS;35 60 0.7 160040 74 2.5 260042 65 3.0 2500;PROC CORR; VAR X1 X2 X3 Y;RUN;PROC CORR NOSIMPLE;VAR Y;WITH X2 X3;PARTIAL X

    7、1;RUN;结果如下: CORRELATION ANALYSIS 4 VAR Variables: X1 X2 X3 Y Simple StatisticsVariable N Mean Std Dev Sum Minimum MaximumX1 10 40.50000 3.30824 405.00000 35.00000 45.00000X2 10 68.80000 5.28730 688.00000 60.00000 78.00000X3 10 2.33000 1.08735 23.30000 0.70000 4.30000Y 10 2315 434.00589 23150 1600 27

    8、50 CORRELATION ANALYSISPearson Correlation Coefficients / Prob|R| under Ho: Rho=0 / N = 10 X1 X2 X3 Y X1 1.00000 0.43195 0.64093 0.69454 0.0 0.2125 0.0458 0.0258 X2 0.43195 1.00000 0.62927 0.76165 0.2125 0.0 0.0513 0.0105 X3 0.64093 0.62927 1.00000 0.72882 0.0458 0.0513 0.0 0.0168 Y 0.69454 0.76165

    9、0.72882 1.00000 0.0258 0.0105 0.0168 0.0PROC CORR的缺省输出包括各变量的描述性统计量(例数N、均数Mean、标准差Std Dev、总和Sum、最小值Minimum、最大值Maximum)和变量两两之间的Pearson相关系数矩阵,在每个相关系数下方给出了对应的总体相关系数为零的假设检验的概率。当需要计算数据集中所有变量两两之间的相关系数时,VAR语句可以省略。由输出结果可见,肺活量与体重、胸围、呼吸差之间的相关系数分别为0.69454(P=0.0258)、0.76165(P=0.0105)和0.72882(P=0.0168),肺活量与体重之间的相

    10、关系数最小。下面的结果反映了体重固定时,肺活量与胸围、呼吸差之间的偏相关系数。 CORRELATION ANALYSIS 1 PARTIAL Variables: X1 2 WITH Variables: X2 X3 1 VAR Variables: Y Pearson Partial Correlation Coefficients / Prob |R| under Ho: Partial Rho=0 / N = 10 Y X2 0.71146 0.0316 X3 0.51366 0.1572我们在PROC CORR语句中用了NOSIMPLE选择项,所以没有打印有关变量的描述性统计量。VAR

    11、语句与WITH语句结合使用,输出结果中只包含Y与X2、X3之间的偏相关系数。可见在体重相同的女中学生中,肺活量与胸围之间仍保持了较大的相关性,而与呼吸差之间的相关性较小,且无统计显著性(P=0.1572)。用ry1、ry2和r21表示分别y与x1、x2,x2与x1之间的相关系数,ry21表示固定x1时y与x2之间的偏相关系数,则 (8.2)实际上,在研究多个变量中两两之间的相关性时,把两变量之外的其它变量作为固定变量所求得的偏相关系数更能真实地反映两变量之间的相关程度。8.1.4 等级相关在相关分析中,要求x、y两变量均服从正态分布。若不满足这一条件,要定量地描述两变量的协同变化,宜计算等级相

    12、关系数。等级相关适用于下列资料:不服从双变量正态分布 总体分布型未知 原始数据是用等级表示。例8.2 在肝癌病因研究中,某地调查了10个乡的肝癌死亡率(1/10万)和食物中黄曲霉毒素相对含量,数据如下:表8.2 肝癌死亡率(1/10万)和黄曲霉毒素相对含量黄曲霉毒素相对含量肝癌死亡率(1/10万)X秩次Y秩次0.7121.531.0218.921.7314.413.7446.574.0527.345.1664.695.5746.365.7834.255.9977.610 .10.0 .10 .55.18程序如下:DATA RANKCORR;INPUT X Y;CARDS; 0.7 21.5 1

    13、.0 18.9 1.7 14.4 3.7 46.5 4.0 27.3 5.1 64.6 5.5 46.3 5.7 34.2 5.9 77.6 10.0 55.1;PROC CORR NOSIMPLE SPEARMAN; VAR X Y;RUN;输出结果为: CORRELATION ANALYSIS 2 VAR Variables: X YSpearman Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10 X Y X 1.00000 0.74545 0.0 0.0133 Y 0.74545 1.00000 0.0133 0.

    14、0在PROC CORR语句中用了NOSIMPLE选择项,取消打印各变量的描述性统计量,而SPEARMAN选择项则要求计算变量间的等级相关系数。这里我们使用了肝癌死亡率和黄曲霉毒素相对含量的原始数据,其实也可用相应的秩次替换原始数据,计算结果完全相同,这说明了Spearman相关系数是按数据的秩次计算出来的,读者不妨一试。输出结果表明肝癌死亡率和食物中黄曲霉毒素相对含量有较高的正相关性(rs=0.74545,P=0.0133).8.2 回归分析8.2.1 概述回归分析研究变量之间的依存关系。如果因变量Y和自变量(或称解释变量)X呈直线关系时,称直线回归。直线回归要求Y服从正态分别且方差相等。多元

    15、回归分析用以研究一个因变量与多个自变量之间线性依存关系。当变量间不是线性关系时,通常需进行数据转换以满足所需条件,再进行线性回归分析。当然有时也需要用原始数据进行非线性的回归分析。根据资料类型,SAS可以进行如下各类回归分析:常用SAS 过程回归类型资料类型因变量自变量REG 线性回归数值变量数值变量STEPWISE 逐步线性回归数值变量数值变量GLM协方差模型、一般线性模型数值变量数值变量、分类变量LOGISTIC Logistic回归分类变量数值变量、分类变量CATMOD Logistic、Poisson回归等分类变量数值变量、分类变量NLIN 非线性回归数值变量数值变量本章涉及PROC

    16、REG和PROC GLM的用法。PROC LOGISTIC和PROC CATMOD在后文有专门章节。PROC STEPWISE的功能在PROC REG中能够实现,而PROC NLIN的使用涉及较多数学知识,这里均未作介绍。回归分析涉及以下几方面内容:(1)估计:估计与方程有关的未知参数,并检验对于这些参数所作的统计假设;(2)预报:用所得的回归方程对自变量的一组值,估计因变量的值(点估计和区间估计);(3)自变量选择:从可能对因变量y有影响的一组自变量中,挑选出对y有重要影响的变量,剔除对y影响不大的变量;或者按某种标准,建立一个“最优”的回归方程。(4)模型的诊断:检查数据、回归方程、统计推

    17、断方法中可能存在的问题,建立较合理的、稳健的模型。建立的回归方程在医学领域有许多应用:(1)描述:即可用来描述某种现象与其影响因素的数量依存关系,如某疾病发病率与气温、湿度的关系。(2)预测:即把预报因子(自变量)代入回归方程对预报量(因变量)及其波动范围进行估计。(3)控制:根据回归方程进行逆运算,即要求因变量在一定范围内波动,可以通过控制自变量的取值来实现。例如,通过建立大气中NO2浓度与汽车流量的回归方程,管理部门可以通过控制汽车流量来控制大气中NO2浓度。8.2.2 REG过程1. REG过程的语句组成。*PROC REG options ; VAR 变量表; BY 变量表; FREQ

    18、 变量表; WEIGHT 变量表;- *标号: MODEL 因变量自变量表/选择项; 标号: TEST 回归系数假设等式; 标号: MTEST 设置回归系数相等的假设; OUTPUT OUT=SAS数据集统计量关键词变量,变量PROC REG语句是必须的,在它后面至少有一个MODEL语句或VAR语句。若只有VAR语句,则过程对这个语句指定的变量计算由语句要求的统计量,但不作回归分析。2. REG过程的语句说明。(1) PROC REG语句格式: PROC REG options;选项有: OUTEST=SAS数据集 将过程中的各回归模型的参数估计值存入数据集。 COVOUT=SAS数据集 将该

    19、估计的协方差阵存入数据集。 OUTSSCP=SAS数据集 指定输出相关矩阵到TYPE=SSCP的数据集中。该数据集含有平方和及变量叉积。当有大量数据要在不同的过程中使用时,该选择项很有帮助。 NOPRINT 不打印输出。(2) MODEL语句 指定回归模型中因变量和自变量及有关回归计算、估计、预测值和残差等。常用的选择项有: STB 打印标准化回归系数。 P 计算出数据集中每一个观测值y的期望值及其标准误。 R 请求残差分析。 CLI 输出每一观测值因变量期望值(均数)的95可信区间。 CLM 计算每一观测值因变量的95容许区间。 COVB 输出估计值的协方差阵。 CORRB 输出估计值的相关

    20、矩阵。 VIF 方差膨胀因子。 COLLIN 要求进行多元共线性分析。 INFLUENCE 要求分析每个观测值对参数估计和模型预测值的影响。(3) VAR语句 列出叉积矩阵中的变量。仅当具有OUTSSCPdataset这个选择才使用。(4) TEST和MTEST语句这两个语句要求检验在本语句前MODEL语句中参数估计的假设。每个等式指定一个线性假设检验。TEST语句用于单个因变量的回归模型。语句中有用户给出表达回归系数假设的一个等式。在这个等式中等号两边都可以是自变量和常数的一个线性组合,也可以只写出等式的一边,这时省略的部分被认为是等号和零。下面是合法的TEST语句: MODEL Y=X1-

    21、X4; A: TEST X1=X2; B: TEST X1+X2=1; C: TEST X1=2*X2+1; D: TEST X1, X2;语句前面的标号是可选的。为便于阅读,在该项假设检验的打印内容前面都冠以语句指定的标号。语句中的自变量必须是当前回归模型中的自变量,每个自变量只代表它在回归模型中对应的系数,而不是自变量本身。 TEST x1=x2, x2=x3, x3=x4; 允许写成 TEST x1=x2=x3=x4; MTEST语句用于多个因变量的回归模型。MTEST语句同样有可选的标号以及一个或几个等式,各等式要以逗号分隔。这些等式分为两类,一类等式的格式和意义跟TEST语句中的一样

    22、,指含自变量和常数;另一类等式只包含因变量(不允许出现非零的常数项); (5) OUTPUT语句 OUTPUT语句的作用是建立一个数据集,存入原始观测数据以及关于每个观测值的统计量,并为该统计量的变量命名。统计量关键词用来指定一个统计量。等号右边的几个变量名用来定义MODEL语句中属于第一个因变量、第二个因变量、的统计量。8.3 直线回归8.3.1 方法概述 1.直线回归方程的建立因变量Y与自变量X的直线回归方程的一般表达式为 (8.3)式中的a、b是决定直线的两个系数。a为回归直线在Y轴上的截距(intercept)。b为回归系数(regression coefficient),即直线的斜率

    23、,反映了自变量X变化一个单位时,因变量Y的 平均变化量。根据最小二乘原理,求a、b使得达到最小,则 (8.4) (8.5)2.直线回归方程的假设检验(1)因变量离均差平方和的分解:因变量的离均差(Y-)可分解为两部分: (Y-)(-)(Y-) (8.6)上式右边的第一项与X有关,第二项称为残差或剩余。可以证明: (8.7) 因变量离均差平方和回归平方和剩余平方和 用符号表示则为 SST(总)=SSR(回归)+SSE(剩余) (8.8)SSR,为回归平方和,它反映在Y的总变异中由于X与Y的直线关系而使Y变异减小的部分,也就是在总平方和中可以用X解释的部分。SSR越大,说明回归效果越好。SSE,为

    24、剩余平方和,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,各实测点离回归直线越近,SSE也就越小,说明直线回归的估计误差越小。另外,还可以用决定系数(coefficient of determination, R2)来表示两变量间回归关系的强度。决定系数的计算公式为: R2SSR/SSE (8.9)可见R2越大,回归效果越好。在一般的线性回归分析中,还应将R2按模型中包含的参数个数进行校正,称为校正R2(记作Adj-R2),其计算公式为: Adj-R2=1-(1-R2)(n-1)/(n-k-1), (8.10)k是模型中的参数个数(不包

    25、含截距),直线回归中k=1。 (2)方差分析法:根据离均差平方和的分解,计算检验统计量F值: , (8.11)式中 MSR为回归均方,MSE为剩余均方,为回归方程的自由度,为剩余变异的自由度。求得F值后,按F分布F(1,n-2)确定P值,再根据检验水准作出推断结论。 (3)回归系数的t检验:对总体回归系数为零的假设也可采用t检验: ,n-2 (8.12) (8.13)式中sb为样本回归系数的标准误;sYX剩余标准差,表示扣除自变量X影响后因变量Y的变异程度。求得t值后,按t分布t(n-2)确定P值,再根据检验水准作出推断结论。对直线回归来说,模型的F检验与回归系数的t检验是等价的。3.直线回归

    26、的区间估计(1)因变量期望值(均数)的估计:是总体中当X为某定值时Y的均数。是其估计值,表示其抽样误差的标准误按下式计算: (8.14)而的1可信区间为 (),缩写为 (8.15)(2)因变量个体值Y的容许区间:即总体中当X为某定值时Y的波动范围。可用于估计因变量的参考值范围,其标准差sY按下式计算: (8.16)而Y的1容许区间为 (),缩写为 (8.17)8.3.2 实例分析例8.3为研究某食品的营养价值,用大白鼠作试验,得大白鼠进食量(克)和增加体重(克)间关系的数据如下,试作直线回归分析。表8.3 大白鼠进食量(克)和增加体重(克)间关系的数据动物编号12345678910进食量(克)

    27、x820780720867690787934679639820增加体重(克)y165158130180134167186145120158编写SAS程序如下,先建立数据集,再用PROC REG作直线回归: DATA REG1; INPUT X Y;CARDS;820 165780 158820 158;PROC REG; MODEL Y=X/CLI CLM;RUN;结果输出如下:Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Mo

    28、del 1 3737.41063 3737.41063 60.197 0.0001 Error 8 496.68937 62.08617 C Total 9 4234.10000 Root MSE 7.87948 R-square 0.8827 Dep Mean 154.30000 Adj R-sq 0.8680 C.V. 5.10660 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 -17.357456 22.26443147 -0.780 0.4581 X 1 0.221894 0.02859949 7.759 0.0001 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95%Obs Y Value Predict Mean Mean Predict Predict Residual 1 165.0 164.6 2.823 158.1 171.1 145.3 183.9 0.4041 2 158.0 155.7 2.498 150.0 161.5 136.7 174.8


    注意事项

    本文(最新08相关分析与回归分析.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开