欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOC文档下载
    分享到微信 分享到微博 分享到QQ空间

    正态分布和线性回归讲义(精品).doc

    • 资源ID:6125344       资源大小:439.50KB        全文页数:8页
    • 资源格式: DOC        下载积分:12金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    正态分布和线性回归讲义(精品).doc

    1、一、【检查作业并讲评】二、【课前热身】了解学生对本次内容的掌握情况,便于查漏补缺。三、【内容讲解】1正态分布密度函数:,(0,-x)其中是圆周率;e是自然对数的底;x是随机变量的取值;为正态分布的均值;是正态分布的标准差.正态分布一般记为 2正态分布)是由均值和标准差唯一决定的分布3正态曲线的性质:正态分布由参数、唯一确定,如果随机变量N(,2),根据定义有:=E,=D。正态曲线具有以下性质:(1)曲线在x轴的上方,与x轴不相交。(2)曲线关于直线x =对称。(3)曲线在x =时位于最高点。(4)当x 时,曲线下降。并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。(5)当一定时

    2、,曲线的形状由确定。越大,曲线越“矮胖”,表示总体越分散;越小,曲线越“瘦高”,表示总体的分布越集中。五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学 4标准正态曲线:当=0、=l时,正态总体称为标准正态总体,其相应的函数表示式是,(-x+)其相应的曲线称为标准正态曲线 标准正态总体N(0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题 5.标准正态总体的概率问题: 对于标准正态总体N(0,1),是总体取值小于的概率,即 ,其中,图中阴影部分的面积表示为概率 只要有标准正态分布表即可查表解决.从图中不难发现:当时,;

    3、而当时,(0)=0.5 6.标准正态分布表标准正态总体在正态总体的研究中有非常重要的地位,为此专门制作了“标准正态分布表”在这个表中,对应于的值是指总体取值小于的概率,即 ,若,则利用标准正态分布表,可以求出标准正态总体在任意区间内取值的概率,即直线,与正态曲线、x轴所围成的曲边梯形的面积 7非标准正态总体在某区间内取值的概率:可以通过转化成标准正态总体,然后查标准正态分布表即可 在这里重点掌握如何转化 首先要掌握正态总体的均值和标准差,然后进行相应的转化 8.小概率事件的含义:发生概率一般不超过5的事件,即事件在一次试验中几乎不可能发生 假设检验方法的基本思想:首先,假设总体应是或近似为正态

    4、总体,然后,依照小概率事件几乎不可能在一次试验中发生的原理对试验结果进行分析 假设检验方法的操作程序,即“三步曲” 一是提出统计假设,教科书中的统计假设总体是正态总体;二是确定一次试验中的a值是否落入(-3,+3);三是作出判断 9相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系 相关关系与函数关系的异同点如下:相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系10回归分析一元线性回归分析: 对具有相关关系的两

    5、个变量进行统计分析的方法叫做回归分析 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性 对于线性回归分析,我们要注意以下几个方面:(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。(3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。11散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映

    6、了各对数据的密切程度 粗略地看,散点分布具有一定的规律 12. 回归直线设所求的直线方程为,其中a、b是待定系数,,相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析 13.相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把= 叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度. 14.相关系数的性质: 1,且越接近1,相关程度越大;且越接近0,相关程度越小.15.显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值 它必须在每一次统计检验之前确定 16. 显著性检验:(相关系数检验的步骤)由

    7、显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为,其中是数据的个数 在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r0 05或r0 01;例如时,0.050.754,0.010.874 求得的相关系数和临界值0.05比较,若0.05,上面与是线性相关的,当r0 05或r0 01,认为线性关系不显著讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究;我们研究的对象是两个变量的线性相关关系,还可以

    8、研究多个变量的相关问题,这在今后的学习中会进一步学到 题型讲解 例1 已知连续型随机变量的概率密度函数,且f(x) 0,求常数k的值,并计算概率P(1.52.5)。 分析:凡是计算连续型随机变量的密度函数f(x)中的参数、概率P(ab)都需要通过求面积来转化而求得。若f(x) 0且在a,b上为线性,那么P(ab)的值等于以b-a为高,f(a)与f(b)为上、下底的直角梯形的面积,即。解: ;。例2 设,且总体密度曲线的函数表达式为:,xR。(1)求,;(2)求及的值。分析:根据表示正态曲线函数的结构特征,对照已知函数求出和。利用一般正态总体与标准正态总体N(0,1)概率间的关系,将一般正态总体

    9、划归为标准正态总体来解决。解:(1)由于,根据一般正态分布的函数表达形式,可知=1,故XN(1,2)。(2) 。又 。点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。例3 某中学有1000人参加并且高考数学成绩近似地服从正态分布,求此校数学成绩在120分以上的考生人数。(2)0.977)解:用表示此中学数学高考成绩,则120分以上的考生人数为10000.02323 点评:通过公式转化成标准正态总体,然后查标准正态分布表即可 例4 将温度调节器放置在贮存着某

    10、种液体的容器内,调节器设定在d ,液体的温度(单位:)是一个随机变量,且N(d,0.52).(1)若d=90,求89的概率;(2)若要保持液体的温度至少为80 的概率不低于0.99,问d至少是多少?(其中若N(0,1),则(2)=P(2)=0.9772,(2.327)=P(2.327)=0.01).分析:(1)要求P(89)=F(89),N(d,0.5)不是标准正态分布,而给出的是(2),(2.327),故需转化为标准正态分布的数值.(2)转化为标准正态分布下的数值求概率p,再利用p0.99,解d.解:(1)P(89)=F(89)=()=(2)=1(2)=10.9772=0.0228.(2)由

    11、已知d满足0.99P(80),即1P(80)10.01,P(80)0.01.()0.01=(2.327).2.327.d81.1635.故d至少为81.1635.点评:(1)若N(0,1),则=N(0,1).(2)标准正态分布的密度函数f(x)是偶函数,x0时,f(x)为减函数.例5 在实际生活中,常用统计中假设检验的思想检验产品是否合格,方法是:(1)提出统计假设:某种指标服从正态分布N(,2);(2)确定一次试验中的取值a;(3)作出统计推断:若a(3,+3),则接受假设,若a(3,+3),则拒绝假设.某砖瓦厂生产的砖的“抗断强度”服从正态分布N(30,0.8),质检人员从该厂某一天生产的

    12、1000块砖中随机抽查一块,测得它的抗断强度为27.5 kg/cm2,你认为该厂这天生产的这批砖是否合格?为什么?解:由于在一次试验中落在区间(3,+3)内的概率为0.997,故几乎必然落在上述区间内.于是把=30,=0.8代入,算出区间(3,+3)=(27.6,32.4),而27.5(27.6,32.4).据此认为这批砖不合格.例6 已知测量误差N(2,100)(cm),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8 cm的频率大于0.9?解:设表示n次测量中绝对误差不超过8 cm的次数,则B(n,p).其中P=P(|0.9,n应满足P(1)=1P(=0)=1(1p)n0.9,

    13、n=2.75.因此,至少要进行3次测量,才能使至少有一次误差的绝对值不超过8 cm的概率大于0.9.例7 已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据:年份19851986198719881989199019911992x(kg)7074807885929095y(t)5.16.06.87.89.010.210.012.0年份1993199419951996199719981999x(kg)92108115123130138145y(t)11.511.011.812.212.512.813.0(1)求x与y之间的相关系数,并检验是否线性相关;(

    14、2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量。分析:(1)使用样本相关系数计算公式来完成;(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关。解:(1)列出下表,并用科学计算器进行有关计算:i1234567891011121314157074807885929095921081151231301381455.16.06.87.89.010.210.012.011.511.011.812.212.512.813.0357444544608.4765938.49001140

    15、1058118813571500.616251766.41885,。故蔬菜产量与放用氮肥量的相关系数。由于n=15,故自由度15-2=13。由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值,则,从而说明蔬菜产量与氮肥量之间存在着线性相关关系。(2)设所求的回归直线方程为,则,回归直线方程为。点评:求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算。如果会使用含统计的科学计算器,能简单得到,这些量,也就无需有制表这一步,直接算出结果就行了。另外,利用计算机中有关应用程序也可以对这些数据进行处理。例8 假设关于某设备的使用年限x和所支出的维修费用y

    16、(万元),有如下的统计资料:x23456y2.23.85.56.57.0若由资料可知y对x呈线性相关关系。试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?分析:本题为了降低难度,告诉了y与x间呈线性相关关系,目的是训练公式的使用。解:(1)列表如下:i12345234562.23.85.56.57.04.411.422.032.542.049162536, , , 于是,。线性回归方程为:。(2)当x=10时,(万元)即估计使用10年时维修费用是12.38万元。点评:本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验。如果本身两个变量不具备线性相关关系,或者

    17、说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。四、【巩固练习】1.下面哪有个数不为总体特征数的是(D)A.总体平均数B.总体方差C.总体标准差D.总体样本答案:D2.设随机变量服从二项分布B(6,),则P(=3)=(A)A. B. C. D.答案:A3.设随机变量N(,),且P(C)=P(C),则C等于A.0 B. C. D.解析:由正态曲线的图象关于直线x=对称可得答案为D.答案:D4.如果随机变量N(,2),且E=3,D=1,则P(11)等于A.2(1)1 B.(4)(2)C.(2)(4) D.(4)(2)解析:对正态分布,=E=3,2=D=1,

    18、故P(11)=(13)(13)=(2)(4)=(4)(2).答案:B5.某厂生产的零件外直径N(8.0,1.52)(mm),今从该厂上、下午生产的零件中各随机取出一个,测得其外直径分别为7.9 mm和7.5 mm,则可认为A.上、下午生产情况均为正常B.上、下午生产情况均为异常C.上午生产情况正常,下午生产情况异常D.上午生产情况异常,下午生产情况正常解析:根据3原则,在8+31.5=8.45(mm)与831.5=7.55(mm)之外时为异常.答案:C6.随机变量服从正态分布N(0,1),如果P(1)=0.8413,求P(10).解:N(0,1),P(10)=P(05)=1P(x5)=1F(5

    19、)=1()=1(1)=11(1)=(1)=0.8413.对第二个方案,有xN(6,22),于是P(x5)=1P(x5)=1F(5)=1()=1(0.5)=(0.5)=0.6915.相比之下,“利润超过5万元”的概率以第一个方案为好,可选第一个方案.9.为考虑广告费用x与销售额y之间的关系,抽取了5家餐厅,得到如下数据:广告费用(千元)1.04.06.010.014.0销售额(千元)19.044.040.052.053.0现要使销售额达到6万元,则需广告费用为_(保留两位有效数字)解析:先求出回归方程=bx+a,令=6,得x=1.5万元.答案:1.5万元10.设随机变量服从N(0,1),求下列各

    20、式的值:(1)P(2.55); (2)P(-1.44); (3)P(|1.52)。分析:一个随机变量若服从标准正态分布,可以借助于标准正态分布表,查出其值。但在标准正态分布表中只给出了,即的情形,对于其它情形一般用公式:(-x)=1-(x);p(axb)= (b)- (a)及等来转化。解:(1) (2) ;(3) 说明:从本题可知,在标准正态分布表中只要给出了的概率,就可以利用上述三个公式求出其它情形下的概率。11某厂生产的圆柱形零件的外径N(4,0.25)。质检人员从该厂生产的1000件零件中随机抽查一件,测得它的外径为5.7cm。试问该厂生产的这批零件是否合格?分析:欲判定这批零件是否合格

    21、,由假设检验基本思想可知,关键是看随机抽查的一件产品的尺寸是在(-3,+3)内,还是在(-3,+3)之外。解:由于圆柱形零件的外径N(4,0.25),由正态分布的特征可知,正态分布N(4,0.25)在区间(4-30.5,4+30.5)即(2.5,5.5)之外取值的概率只有0.003,而,这说明在一次试验中,出现了几乎不可能发生的小概率事件,根据统计中假设检验的基本思想,认为该厂这批产品是不合格的。点评:判断某批产品是否合格,主要运用统计中假设检验的基本思想。五、【课堂总结】小结:1.频率分布随着样本容量的增大更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线反映总体分布的频率密度曲线,基于频率分布与相应的总体分布的关系,且通常我们并不知道一个总体的分布,因此,我们往往是从总体中抽取一个样本,用样本的频率分布去估计相应的总体分布.2.统计中假设检验的基本思想是:根据小概率事件在一次试验中几乎不可能发生的原理和从总体中抽测的


    注意事项

    本文(正态分布和线性回归讲义(精品).doc)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开