高考数学统计与统计案例变量间的相关关系与统计案例.docx
- 文档编号:15481837
- 上传时间:2023-07-04
- 格式:DOCX
- 页数:15
- 大小:169.53KB
高考数学统计与统计案例变量间的相关关系与统计案例.docx
《高考数学统计与统计案例变量间的相关关系与统计案例.docx》由会员分享,可在线阅读,更多相关《高考数学统计与统计案例变量间的相关关系与统计案例.docx(15页珍藏版)》请在冰点文库上搜索。
高考数学统计与统计案例变量间的相关关系与统计案例
变量间的相关关系与统计案例
【考点梳理】
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:
两个具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.
3.残差分析
(1)残差:
对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
(2)相关指数:
R2=1-.
4.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量K2=(其中n=a+b+c+d为样本容量).
【考点突破】
考点一、相关关系的判断
【例1】
(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③D.①③②
(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2 C.r4 [答案] (1)D (2)C(3)A [解析] (1)第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②. (2)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关. (3)由相关系数的定义以及散点图所表达的含义可知r2 【类题通法】 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关. 2.利用相关系数判定,当|r|越趋近于1,相关性越强. 当残差平方和越小,相关指数R2越大,相关性越强. 【对点训练】 1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( ) A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20% B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20% C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20% D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% [答案]B [解析]因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%. 2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648; ③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578. 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④D.①④ [答案]D [解析]正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④. 3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( ) A.-1B.0C.D.1 [答案]D [解析]因为所有样本点都在直线y=x+1上,所以这组样本数据完全正相关,故其相关系数为1. 考点二、线性回归方程及应用 【例2】某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1: 年份x 2013 2014 2015 2016 2017 储蓄存款y(千亿元) 5 6 7 8 10 表1 为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2012,z=y-5得到下表2: 时间代号t 1 2 3 4 5 z 0 1 2 3 5 表2 (1)求z关于t的线性回归方程; (2)通过 (1)中的方程,求出y关于x的回归方程; (3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少? (附: 对于线性回归方程=x+,其中=,=-) [解析] (1)由已知,得=3,=2.2,izi=45,=55, ==1.2,=-=2.2-1.2×3=-1.4,∴=1.2t-1.4. (2)将t=x-2012,z=y-5,代入=1.2t-1.4, 得y-5=1.2(x-2012)-1.4,即=1.2x-2410.8. (3)∵=1.2×2020-2410.8=13.2, ∴预测到2020年年底,该地储蓄存款额可达13.2千亿元. 【类题通法】 回归直线方程中系数的2种求法 (1)公式法: 利用公式,求出回归系数,. (2)待定系数法: 利用回归直线过样本点中心(,)求系数. 【对点训练】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位: 千元)对年销售量y(单位: t)和年利润z(单位: 千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. (xi-)2 (wi-)2 (xi-)(yi-) (wi-)(yi-) 46.6 563 6.8 289.8 1.6 1469 108.8 表中wi=,=i. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型? (给出判断即可,不必说明理由) (2)根据 (1)的判断结果及表中数据,建立y关于x的回归方程. (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据 (2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 附: 对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-. [解析] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程. 由于===68, =-=563-68×6.8=100.6, 所以y关于w的线性回归方程=100.6+68w, 因此y关于x的回归方程为=100.6+68. (3)①由 (2)知,当x=49时, 年销售量y的预报值=100.6+68=576.6, 年利润z的预报值=576.6×0.2-49=66.32. ②根据 (2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 【例3】如图是我国2008年至2014年生活垃圾无害化处理量(单位: 亿吨)的折线图. 注: 年份代码1~7分别对应年份2008~2014. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 参考数据: yi=9.32,tiyi=40.17,=0.55,≈2.646. 参考公式: 相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-. [解析] (1)由折线图中的数据和附注中的参考数据得 =4,(ti-)2=28,=0.55, (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89, 所以r≈≈0.99. 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系. (2)由=≈1.331及 (1)得 ==≈0.103. =-≈1.331-0.103×4≈0.92. 所以y关于t的回归方程为=0.92+0.10t. 将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】 线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算. 【对点训练】 为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位: cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 经计算得 , , , ,其中 为抽取的第 个零件的尺寸, . (1)求 的相关系数 ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若 ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (i)从这一天抽检的结果看,是否需对当天的生产过程进行检查? (ii)在 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附: 样本 的相关系数 , . [解析] (1)由样本数据得 的相关系数为 . 由于 ,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)(i)由于 ,由样本数据可以看出抽取的第13个零件的尺寸在 以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为 ,这条生产线当天生产的零件尺寸的均值的估计值为10.02. , 剔除第13个数据,剩下数据的样本方差为 , 这条生产线当天生产的零件尺寸的标准差的估计值为 . 考点三、独立性检验 【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位: kg),其频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关: 箱产量<50kg 箱产量≥50kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附: P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 K2=. [解析] (1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62. 新养殖法的箱产量不低于50kg的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.62×0.66=0.4092. (2)由 (1)知可得列联表 箱产量<50kg 箱产量≥50kg 旧养殖法 62 38 新养殖法 34 66 由表中数据及K2的计算公式得, K2=≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+≈52.35(kg). 【类题通法】 解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤: (1)根据样本数据制成2×2列联表; (2)根据公式K2=计算K2的观测值k; (3)比较k与临界值的大小关系,作统计推断. 【对点训练】 为了了解某学校高二年级学生的物理成绩,从中抽取n名学生的物理成绩(百分制)作为样本,按成绩分成5组: [50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20. (1)求a和n的值; (2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数和中位数m; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关. 男生 女生 合计 优秀 不优秀 合计 附: 参考公式和数据: K2=, P(K2≥k0) 0.50 0.05 0.025 0.005 k0 0.455 3.841 5.024 7.879 [解析] (1)由题意得10a=1-(0.005+0.01+0.015+0.02)×10=0.5, 解得a=0.05,则n==40. (2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 所以=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m-70)×0.05=0.5-(0.05+0.2),得m=75. (3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30. 所以优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 所以2×2列联表如下: 男生 女生 总计 优秀 6 4 10 不优秀 10 20 30 总计 16 24 40 所以K2=≈2.222<3.841, 所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高考 数学 统计 案例 变量 相关 关系