应用统计学05-回归分析PPT文件格式下载.ppt
- 文档编号:4089650
- 上传时间:2023-05-02
- 格式:PPT
- 页数:55
- 大小:388KB
应用统计学05-回归分析PPT文件格式下载.ppt
《应用统计学05-回归分析PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《应用统计学05-回归分析PPT文件格式下载.ppt(55页珍藏版)》请在冰点文库上搜索。
4年级的生活费为,X年级,Y生活费,回归的残差,残差(residual)Y的样本值与拟合值的差是Y的变化中,模型没有说明的部分残差越大,模型的拟合度越差例:
求第2个观察值的残差,Y生活费,X年级,最小二乘法进行估计的一般形式,模型及样本从总体模型Y=+X+随机采样,得n对随机变量(Yi,Xi)构成的样本,样本的观察值是(yi,xi)最小二乘法估计结果,最小二乘法中的两个重要公式,回归估计值的误差,生活费例续前述回归的样本:
随机选择3个学生,年级X为1、2、3,月生活费Y分别是1、2、2千元,估计方程为年级增加1级,生活费增加500元样本变化如果加入1个4年级学生,且其当月的生活费为4千元,用最小二乘法可得估计方程年级增加1级,生活费增加900元,回归模型的概率分布,总体模型的概率分布给定X=x,设的条件分布为正态N(0,2)则因变量Y的条件分布为正态N(+x,2)样本模型的概率分布从上述条件分布中随机采样n对随机变量(Yi,Xi),设观察值x=x1,xn,y=y1,yn,则样本的条件分布,附:
回归的极大似然估计(mle),回归的似然函数(likelihoodfunction)将前述样本的条件分布视为参数、的函数,则称为回归的似然函数条件分布的值相当于获得该组样本的“概率”极大似然估计(maximumlikelihoodestimation)使上述“概率”最大的、值就是其估计值,系数估计值的分布:
斜率估计值,斜率系数估计值b是一个随机变量在样本的n对随机变量(Yi,Xi)中,将Xi视为给定(等于xi),将Yi视为来自总体Y的随机变量Y服从正态分布N(+x,2),所以Yi服从正态分布N(+xi,2)则斜率估计值b是随机变量Yi的线性函数,也服从正态分布,斜率系数估计值b的期望值,斜率系数估计值b的方差,所以,斜率系数估计值b的分布:
用严格的条件分布表示:
b的分布例,生活费续3个学生,年级X为1、2、3,月生活费Y分别是1、2、2千元,求斜率估计值b的分布,增加1个4年级学生,该分布会怎么变化?
第2节回归模型的检验,为什么必须对回归结果进行检验,从总体看(population)回归的主要目的是揭示一种现象Y如何受其他现象X的影响X对Y的影响可分为三种情况:
正、负、0其中=0表示X对Y没有影响,回归模型无效从样本看(sample)利用样本数据计算的斜率估计值b是随机变量b的三种取值情况不一定对应参数的三种情况特别是,当b0,而=0,相当于“歪曲总体”,应尽量避免这种错误,回归结果的两类检验,第一类:
回归的系数检验对单个系数的估计值进行t检验若检验结果显著,则该系数的变量对因变量有影响,否则无影响第二类:
回归的模型检验判断所有的自变量组成的模型对因变量是否有说明力模型的设定(modelspecification)是否存在问题三个基本的模型检验:
判定系数、F检验、DW检验(仅限时序列回归),系数估计值的t分布,系数估计值为正态分布2未知,用回归的残差均方代替,转化为t分布,系数估计值在t分布下的特点为使系数估计值尽量准确,就要减少其标准差增加样本观察值的数量n(n至少要大于系数的个数)增加自变量的方差,即采样要广泛减少残差,即多用对Y有说明力的自变量,b的t分布例,生活费续3个学生,年级为1、2、3,月生活费分别是1、2、2千元,估计方程为求斜率估计值b的t分布,系数的t检验,要检验的假设检验在总体中,X对Y的影响是否存在,即显著水平一般设为0.05检验使用的统计量系数估计值的t值设H0正确,则=0,检验中的临界值H0正确时,系数估计值除以其标准差就是系数估计值的t值,服从t分布将拒绝H0的最大概率设为0.05因为已设定H0正确,所以0.05也就是检验中第一类错误的最大概率在样本够大时(比如20以上),对应的左右临界值2检验结果当|t值|2,或者p值0.05,检验显著,拒绝H0,0,表示在回归的总体模型中,X对Y存在影响,基于样本的估计值b有效当|t值|0.05,检验不显著,接受H0,=0,表示在回归的总体模型中,X对Y不存在影响,基于样本的估计值b无效,系数的t检验图示,H1区域:
0,H1区域:
0,0,面积=0.025,面积=0.025,H0正确时,系数估计值的t分布,系数的t检验例,生活费续3个学生的样本,回归估计方程为对斜率系数进行t检验,系数t检验:
根据EViews的回归结果,在EViews中,用年级对生活费做回归,系数估计结果如下利用软件的回归结果做系数t检验常数项的t检验一般省略年级的系数的p值=0.330.05,所以该系数在0.05水平下不显著,表明年级对生活费没有影响,系数t检验:
根据Excel的回归结果,在Excel中,用年级对生活费做回归,系数估计结果如下与EViews的结果一样,t检验方法也一样,回归的模型检验:
平方和分解,因变量Y的离差平方和(SST)回归就是用X的变化说明Y的变化Y的变化=Y的样本值与样本均值的离差平方和则Y的变化中,与X有关的变化可以衡量X对Y的说明力Y的离差平方和可分解为SSR+SSE,Y的平方和分解中的自由度,平方和分解例,生活费续3个学生的样本,年级X为1、2、3,月生活费Y分别是1、2、2千元回归估计方程为平方和分解,回归的模型检验:
判定系数,判定系数(coefficientofdetermination,R2)所有自变量对因变量的说明程度,或者说回归模型的拟合程度例:
生活费回归,调整判定系数(adjustedR2)在回归模型中,增加任何一个自变量,都会增大R2,自变量与Y关系越强,R2增幅越大为避免将与Y无关的自变量加入模型,每增加一个自变量,对R2适当扣减,就是调整判定系数或称调整R2例:
生活费回归(样本为3,自变量个数为2)调整判定系数的运用如果添加一个自变量导致调整判定系数减少了,则该自变量对模型的贡献可或略,考虑舍去,回归的模型检验:
F检验,要检验的问题:
模型是否有效如果在总体中,所有的自变量都对Y无影响,则回归分析是无意义的,样本回归获得的系数估计值b0是对总体的“歪曲”检验的假设检验的统计量:
F值显然,F值越大,Y的变化中被自变量说明的部分越大,自变量的说明力越强,模型越有效,F检验的结果一般根据F值的实际显著水平,就是F值对应的p值(两者关系:
F值越大,p值越小)在0.05显著水平下,若p值0.05,检验显著,拒绝H0,即在回归的总体模型中,至少有一个斜率系数不为0,模型有效。
至于哪些斜率系数有效,使用前述的系数t检验判断若p值0.05,检验不显著,接受H0,即在回归的总体模型中,所有斜率系数都是0,模型无效,回归获得的估计值b无意义如何使回归模型有效(获得较大的F值),例:
生活费回归的F检验,F检验与判定系数R2,F值与判定系数R2有如下关系所以,R2越大,F值也越大但是,必须先做F检验,再讨论R2如果F检验的结果是回归模型无效,则R2再大也没用任何意义,模型检验:
Excel软件,Excel里,关于模型有两个表:
回归统计和方差分析报告回归结果时一般将两者综合,模型检验:
EViews软件,在EViews中,用年级对生活费做回归,关于模型的结果如下利用软件的回归结果做模型检验F值=3,p值=0.330.05,所以在0.05显著水平下,F检验不显著,回归模型无效,回归失败,附:
EViews回归结果,第3节回归分析例,使用回归分析作实证研究的过程提出实证问题对数据进行统计描述回归分析结论,实证研究的问题及数据,实证问题:
校警是否可以减少校园犯罪?
数据:
1991年美国97所大学数据数据来源:
Wooldridge,IntroductoryEconometrics方法:
多元线性回归变量:
crime(犯罪数)police(校警数)private(是否私立)students(学生数)步骤:
统计描述、回归分析、结论,EViews数据表,图形法统计描述:
主要变量的分布图,犯罪件数的分布明显偏向0,属于典型的少发事件校警人数的分布也偏少,但更均匀,图1犯罪数Crime的分布图,图2校警Police的分布图,犯罪件数分组,校警人数分组,学校数,学校数,图形法统计描述:
主要变量的散点图,每一个点代表一个学校,横轴的位置是该校的校警人数,纵轴的位置为该校的犯罪数量直观描述犯罪数和校警数的关系(红线为一元回归线)犯罪数和校警数有一定正关系,但随着校警数的增长,正关系减弱,校警人数,犯罪件数,图3校警数与犯罪数的散点图,数值法统计描述:
基本统计量表,犯罪数的标准差大于均值,而校警数相反私立学校占比很小,表1变量的基本统计量表,数值法统计描述:
相关系数表,因为校园犯罪是所关心的变量,故关注该变量与其他变量的相关性相关系数表是统计分析的出发点。
各系数是回归变量的选择、取舍的重要依据,表2变量的相关系数表,报告回归结果的规范方法,规范的报告方法有两种简略法详细法简略法直接给出回归的估计方程,附上系数检验指标、重要的模型检验指标详细法使用回归结果表,表分成两个部分部分一:
各系数的估计结果,比如估计值、标准差等部分二:
重要的模型检验指标,比如R2、F值等两种方法只用一种,不规范的方法,不能使用软件给出的原始结果,方法一:
简略法,如方框所示,直接将系数估计值带入回归式(保留2到4位小数)系数的t检验将显著水平设为0.05,因为样本够大,所以只要|t值|2,系数即显著校警人数和学生数的系数均显著,两个变量对犯罪数是正影响私立的系数不显著,该变量对犯罪数无影模型检验F值=85.46,p值=0.00,检验显著,模型有效,方法二:
详细报告法,详细报告法更常用,推荐使用,尤其是变量较多时估计值标准差=t值,所以一般可省略标准差横截面数据可省略DW统计量系数和模型检验情况与前述“简略法”类似,表3回归结果,回归分析的结论,单纯增加校警不能减少校园犯罪根据本样本可以推测,美国大学增加校警并不是为了减少校园犯罪,而是被动地应付增加的校园犯罪所以,减少校园犯罪应更多关注一些深层次的因素,而不仅仅是加强外部的“威慑力”,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 05 回归 分析