独立性检验的基本思想及其初步应用-ppt课件.ppt
- 文档编号:18900167
- 上传时间:2024-02-10
- 格式:PPT
- 页数:33
- 大小:4.47MB
独立性检验的基本思想及其初步应用-ppt课件.ppt
《独立性检验的基本思想及其初步应用-ppt课件.ppt》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用-ppt课件.ppt(33页珍藏版)》请在冰点文库上搜索。
3.23.2独立性检验的基本思想独立性检验的基本思想及其初步应用及其初步应用新课新课新课新课,另习题课、习题见金榜另习题课、习题见金榜3.23.2独立性检验的独立性检验的基本思想及其初步应用基本思想及其初步应用我们经常听到这些说法:
我们经常听到这些说法:
l吸烟对患肺癌有影响;吸烟对患肺癌有影响;l数学好的人物理一般也很好;数学好的人物理一般也很好;l是否喜欢数学课程与性别之间有关系;是否喜欢数学课程与性别之间有关系;l人的血型会决定人的性格;人的血型会决定人的性格;l星座与人的命运之间有某种联系星座与人的命运之间有某种联系.这些说法都有道理吗?
这些说法都有道理吗?
1.1.理解独立性检验的基本思想理解独立性检验的基本思想.(重点)(重点)2.2.会从列联表、等高条形图直观判断吸烟与患会从列联表、等高条形图直观判断吸烟与患肺癌肺癌有关有关.(难点)(难点)3.3.了解随机变量了解随机变量KK22的含义的含义,理解独立性检验的基理解独立性检验的基本思想及实施步骤本思想及实施步骤.(难点)(难点)探究点探究点11独立性检验的基本思想独立性检验的基本思想对于性别变量,其取值为男和女两种对于性别变量,其取值为男和女两种.这种变量这种变量的不同的不同“值值”表示个体所属的不同类别,像这样的变表示个体所属的不同类别,像这样的变量称为量称为.分类变量在现实生活中是大量存在的,如是否分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等月份等.分类变量分类变量不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965问题:
问题:
为了研究吸烟是否对患肺癌有影响,某肿瘤研究为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了所随机地调查了99659965人,得到如下结果:
人,得到如下结果:
吸烟与患肺癌列联表(单位:
人)吸烟与患肺癌列联表(单位:
人)在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是_._.说明:
吸烟者和不吸烟者患肺癌的可能性存在差异,说明:
吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大.2.28%2.28%在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是_,_,0.54%0.54%通过图形直观判断两个分类变量是否相关:
通过图形直观判断两个分类变量是否相关:
等高等高条形图条形图通过数据和图形分析,得到结论是:
吸烟与患通过数据和图形分析,得到结论是:
吸烟与患肺癌有关肺癌有关.那么这种判断是否可靠呢?
我们可以通过那么这种判断是否可靠呢?
我们可以通过统计分析回答这个问题统计分析回答这个问题.假设假设HH00:
吸烟与患肺癌之间没有关系:
吸烟与患肺癌之间没有关系,吸烟与患肺癌列联表吸烟与患肺癌列联表(单位:
人单位:
人)不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aabba+ba+b吸烟吸烟ccddc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d如果如果“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,那么吸烟样,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多例差不多.即即引入一个随机变量引入一个随机变量它是检验在多大程度上可以认为它是检验在多大程度上可以认为“两个变量两个变量有关系有关系”的标准的标准.ad-bcad-bc越小,越小,说明吸烟与患肺癌之间的关系越弱说明吸烟与患肺癌之间的关系越弱;ad-bcad-bc越大,越大,说明吸烟与患肺癌之间的关系越强说明吸烟与患肺癌之间的关系越强.其中其中n=a+b+c+dn=a+b+c+d为样本容量为样本容量.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965通过公式计算通过公式计算吸烟与患肺癌列联表(单位:
人)吸烟与患肺癌列联表(单位:
人)已知在已知在成立的情况下成立的情况下,即在即在成立的情况下,成立的情况下,KK22的观测值大于的观测值大于6.6356.635的概率非常小,近似为的概率非常小,近似为0.010.01,是一个小概率事件,是一个小概率事件.思考:
思考:
这个值到底告诉我们什么呢?
这个值到底告诉我们什么呢?
现在现在KK22的观测值的观测值kk56.63256.632,远远大于,远远大于6.6356.635,所以有理由,所以有理由断定断定HH00不成立不成立,即认为即认为“吸烟与患肺癌有关系吸烟与患肺癌有关系”.独立性检验的定义独立性检验的定义:
利用随机变量利用随机变量KK22来判断来判断“两个分类变量有关系两个分类变量有关系”的方法的方法称为独立性检验称为独立性检验.独立性检验的一般步骤独立性检验的一般步骤:
(11)假设假设两个分类变量两个分类变量XX与与YY没有关系没有关系.(22)计算出)计算出KK22的观测值的观测值k.k.(33)把)把kk的值与的值与临界值临界值比较确定比较确定XX与与YY有关的有关的程度或无关系程度或无关系.设有两个分类变量设有两个分类变量XX和和YY,它们的取值分别为,它们的取值分别为xx11,x,x22和和yy11,y,y22,其样本频数列联表其样本频数列联表(称为称为2222列联表列联表)为为yy11yy22总计总计xx11aabba+ba+bxx22ccddc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d临界值表:
临界值表:
如如P(k10.828)=0.001P(k10.828)=0.001表示在表示在犯错误的概率不犯错误的概率不超过超过0.0010.001的前提下的前提下,认为,认为“XX与与YY有关系有关系”.”.如如P(k6.635)=0.010P(k6.635)=0.010表示在表示在犯错误的概率不超犯错误的概率不超过过0.0100.010的前提下的前提下,认为,认为“XX与与YY有关系有关系”.”.独立性检验的基本思想类似反证法独立性检验的基本思想类似反证法
(1)
(1)假设结论不成立假设结论不成立,即即“两个分类变量没有关系两个分类变量没有关系”.
(2)
(2)在此假设下随机变量在此假设下随机变量KK22应该很小应该很小,如果由观测数据如果由观测数据计算得到计算得到KK22的观测值的观测值kk很大很大,则在一定程度上说明假则在一定程度上说明假设不合理设不合理.(3)(3)根据随机变量根据随机变量KK22的含义的含义,可以通过评价该假设不合可以通过评价该假设不合理的程度理的程度,如由实际计算出的如由实际计算出的k10.828.k10.828.说明假设不说明假设不合理的程度为合理的程度为99.9%,99.9%,即即“两个分类变量有关系两个分类变量有关系”这这一结论成立的可信度约为一结论成立的可信度约为99.9%.99.9%.探究点探究点22独立性检验的初步应用独立性检验的初步应用例例.在在某某医医院院,因因为为患患心心脏脏病病而而住住院院的的665665名名男男性性病病人人中中,有有214214人人秃秃顶顶,而而另另外外772772名名不不是是因因为为患患心心脏脏病病而而住住院院的的男男性性病病人人中中有有175175人人秃秃顶顶.
(1).
(1)利利用用图图形形判判断断秃秃顶顶与与患患心心脏脏病病是是否否有有关关系系;
(2);
(2)能能否否在在犯犯错错误误的的概概率率不超过不超过0.010.01的前提下认为秃顶与患心脏病有关系?
的前提下认为秃顶与患心脏病有关系?
患心脏病患心脏病患其他病患其他病总计总计秃顶秃顶214214175175389389不秃顶不秃顶45145159759710481048总计总计66566577277214371437
(1)
(1)相应的等高条形图如下所示,相应的等高条形图如下所示,秃顶秃顶不秃顶不秃顶不患心脏病不患心脏病患心脏病患心脏病解:
解:
根据题目所给数据得到如下列联表:
根据题目所给数据得到如下列联表:
由图可认为秃顶与患心脏病有关系由图可认为秃顶与患心脏病有关系因此,在犯错误的概率不超过因此,在犯错误的概率不超过0.010.01的前提下,的前提下,认为秃顶与患心脏病有关系认为秃顶与患心脏病有关系.
(2)
(2)根据列联表中的数据,得到根据列联表中的数据,得到yy11yy22总计总计xx11aabba+ba+bxx22ccddc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d思考:
思考:
考察下表,考察下表,定义定义根根据据独独立立性性检检验验原原理理,如如何何用用WW构构造造一一个个判判断断XX和和YY是是否否有有关关系系的的规规则则,使使得得在在该该规规则则下下把把“XX和和YY没没有有关关系系”错判成错判成“XX和和YY有关系有关系”的概率不超过的概率不超过0.010.01?
通分(分子)通分(分子).由由WW的定义可以发现:
它越大,越有利于结论的定义可以发现:
它越大,越有利于结论“XX和和YY有关系有关系”;它越小,越有利于结论;它越小,越有利于结论“XX和和YY没没有关系有关系”.因此可以建立如下的判断规则:
因此可以建立如下的判断规则:
当当WW的观测值的观测值00时,就判断时,就判断“XX和和YY有关有关系系”;否则,判断;否则,判断“XX和和YY没有关系没有关系”.这里这里00为为正实数,满足如下条件:
在正实数,满足如下条件:
在“XX和和YY没有关系没有关系”的的前提下,前提下,思考:
思考:
若在若在“XX和和YY没有关系没有关系”的情况下有:
的情况下有:
1.1.独立性检验中的统计假设就是假设两个分类量独立性检验中的统计假设就是假设两个分类量AA,BB()A.A.互斥互斥B.B.不互斥不互斥C.C.相互独立相互独立D.D.不独立不独立CC22.下列说法中正确的是下列说法中正确的是()独立性检验的基本思想是带有概率性质的反证法;独立性检验的基本思想是带有概率性质的反证法;独立性检验就是独立性检验就是在假设在假设HH00下,如果出现一个与下,如果出现一个与HH00相相矛盾的小概率事件,矛盾的小概率事件,就推断就推断HH00不成立,且该推断犯错不成立,且该推断犯错误的概率不超过这个小概率误的概率不超过这个小概率,则作出拒绝则作出拒绝HH00的推断;的推断;独立性检验一定能给出明确的结论独立性检验一定能给出明确的结论AA.BB.CC.DD.练练33有两个分类变量有两个分类变量XX与与YY的一组数据,由其列联表的一组数据,由其列联表计算得计算得KK224.5234.523,则,则认为认为XX与与YY有关系是错误的有关系是错误的可信度为可信度为()AA95%95%BB90%90%CC5%5%DD10%10%44在对人们的休闲方式的一次调查中,共调查了在对人们的休闲方式的一次调查中,共调查了124124人,其中女性人,其中女性7070人,男性人,男性5454人,女性中有人,女性中有4343人人主要的休闲方式是看电视,另外主要的休闲方式是看电视,另外2727人主要的休闲方式人主要的休闲方式是运动;男性中有是运动;男性中有2121人主要的休闲方式是看电视,人主要的休闲方式是看电视,另外另外3333人主要的休闲方式是运动人主要的休闲方式是运动
(1)
(1)根据以上数据建立一个根据以上数据建立一个2222的列联表的列联表.
(2)
(2)判断休闲方式与性别是否有关系判断休闲方式与性别是否有关系性别性别看电视看电视运动运动总计总计女女434327277070男男212133335454总计总计64646060124124休闲方式休闲方式()独立性检验的一般步骤独立性检验的一般步骤:
(11)假设两个分类变量)假设两个分类变量XX与与YY没有关系;没有关系;(22)计算出)计算出KK22的观测值的观测值kk;(33)把)把kk的值与临界值比较确定的值与临界值比较确定XX与与YY有关的程度或有关的程度或无关系无关系.独立性检验基本的思想类似独立性检验基本的思想类似反证法反证法
(1)1)假设结论不成立假设结论不成立,即即“两个分类变量没有关系两个分类变量没有关系”.
(2)
(2)在此假设下随机变量在此假设下随机变量KK22应该很小应该很小,如果由观测数据如果由观测数据计算得到计算得到KK22的观测值的观测值kk很大很大,则在一定程度上说明假设则在一定程度上说明假设不合理不合理.(3)(3)根据随机变量根据随机变量KK22的含义的含义,可以通过可以通过评价该假设不合理的程度评价该假设不合理的程度,由实际计算出的由实际计算出的,说明假设合理的程度为说明假设合理的程度为99.9%,99.9%,即即“两个分类变量有两个分类变量有关系关系”这一结论成立的可信度为约为这一结论成立的可信度为约为99.9%.99.9%.当你无法从一楼蹦到三楼时,不要忘记走楼梯.要记住伟大的成功往往不是一蹴而就的,必须学会分解你的目标,逐步实施.课本课本P97练习、习题、练习、习题、。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 独立性 检验 基本 思想 及其 初步 应用 ppt 课件