完整版变量间的相关关系统计案例.docx
- 文档编号:16005906
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:29
- 大小:61.64KB
完整版变量间的相关关系统计案例.docx
《完整版变量间的相关关系统计案例.docx》由会员分享,可在线阅读,更多相关《完整版变量间的相关关系统计案例.docx(29页珍藏版)》请在冰点文库上搜索。
完整版变量间的相关关系统计案例
§11.3变量间的相关关系、统计案例
教学目标
1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
2.
(线性回归方程系数公式不要
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程求记忆).
3.了解回归分析的思想、方法及其简单应用.
4.了解独立性检验的思想、方法及其初步应用.
学习内容
知识梳理
1.
变量间的相关关系
-单询逼减卜
一丽肌性
一帀相艾-
2.
散点图
以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图.
3.
回归直线方程与回归分析
A
(1)直线方程y=a+bx,叫做Y对X的回归直线方程,b叫做回归系数.要确定回归直线方程,只要确定a与回归
系数b.
(2)用最小二乘法求回归直线方程中的a,b有下列公式
n——
AAAA
a=y—bx,其中的a,b表示是求得的a,b的估计值.
AfSiXiyi—nXy
b=nZZ~
(3)相关性检验
①计算相关系数r,
苕x2—nx2
r有以下性质:
|r|£1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱
②lrl>r005,表明有95%的把握认为变量x与丫直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归
直线方程毫无意义.
4.
独立性检验
(1)2X2列联表:
B
合计
A
n11
n12
n1+
1
"a
n21
n22
n2+
合计
n+1
n+2
n
其中n1+=n11+n12,n2+=n21+n22,n+1=nn+n^,n+2=n^+n22,n=n11+n^+n^+n22.
⑵X统计量:
2
2nn11n22—n12n21
X=
n1+n2+n+1n+2
⑶两个临界值:
3.841与6.635
当X>3.841时,有95%的把握说事件A与B有关;
当X>6.635时,有99%的把握说事件A与B有关;
当Xw3.841时,认为事件A与B是无关的.
會例题讲解
题型一相关关系的判断[例15个学生的数学和物理成绩如下表:
学生
学科、
A
B
C
D
E
数学
80
75
70
65
60
物理
70
66
68
64
62
画出散点图,并判断它们是否具有相关关系.
思维启迪将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两
个变量是否存在相关关系.
解以X轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.
70
60
5(»
«50W70冊90工(敵学底墩>
由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.
思维升华判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量
之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.
【巩固】
(1)对变量X,y有观测数据(Xi,yi)(i=1,2,…,10),得散点图①;对变量U,v有观测数据(Ui,vi)(i=1,2,…,
10),得散点图②,由这两个散点图可以判断()
A.变量
x与y正相关,
u与v正相关
B.变量
x与y正相关,
u与v负相关
C•变量
x与y负相关,
u与v正相关
X与y负相关,
答案C
D.变量
u与v负相关
⑵(2012课标全国)在一组样本数据(X1,yi),(X2,y2),…,
(xn,yn)(n>2,X1,X2,…,xn不全相等)的散点图中,
1
若所有样本点(Xi,yi)(i=1,2,…,n)都在直线y=2X+1上,则这组样本数据的样本相关系数为
C-2
D.1
答案
解析
利用相关系数的意义直接作出判断.
(1)在给定的坐标系中画出表中数据的散点图;
样本点都在直线上时,其数据的估计值与真实值是相等的,即yi=yi,代入相关系数公式
=1.
题型二线性回归分析[例2】某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
y
II
4卜-十十
a-4-4
2--丄丄
AAA
(2)求出y关于X的回归直线方程y=bx+a,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
n
xiyi—nxy
Ai=1AA
(注:
b=,a=y—bx)
n
x2—nx2
i=1
A
思维启迪求回归直线方程的系数b时,为防止出错,应分别求出公式中的几个量,再代入公式.
解
(1)散点图如图.
yii
*
4,
3
2
!
!
!
4
Illi
011345J
4
⑵由表中数据得:
Xiyi=52.5,
i=1
一一4
X=3.5,y=3.5,x2=54,
i=1
AA
二b=0.7,.•.a=1.05,
二y=0.7X+1.05,回归直线如图所示.
A
⑶将x=10代入回归直线方程,得y=0.7X10+1.05=8.05,
故预测加工10个零件约需要8.05小时.
AAA
思维升华
(1)回归直线方程y=bx+a必过样本点的中心(匚,7).
(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线
性相关关系,则可通过回归直线方程估计和预测变量的值.
[巩固】为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月
1号到5号每天打篮球
时间x(单位:
小时)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
;用线性回归分析的方法,预测小李该月
小李这5天的平均投篮命中率为
6号打6小时篮球的投篮命中
率为
答案0.50.53
解析小李这5天的平均投篮命中率
y=0.4+0.5+0.6+0.6+0.4=0.5,可求得小李这5天的平均打篮球时间匸=3.根据表中数据可求得b=0.01,a=
A
0.47,故回归直线方程为y=0.47+0.01X,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.
题型三独立性检验
[例3为调查某地区老年人是否需要志愿者提供帮助,
用简单随机抽样方法从该地区调查了500位老年人,结果如下:
〜〜〜性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.
(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
⑶根据
(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?
说明理由.
思维启迪直接计算X的值,然后利用表格下结论.
解
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人
的比例的估计值为X100%=14%.
500
(2)500X40X270—30X1602-9.967.
'丿人200X300X70X430
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由
(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年
人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女
两层并采用分层抽样方法,比采用简单随机抽样方法更好.
思维升华
(1)根据样本估计总体是抽样分析的一个重要内容.
要使估计的结论更加准确,抽样取得的样本很关键.
(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而
看出独立性检验的作用.
【巩固】某中学对“学生性别和是否喜欢看NBA比赛”作了一次调查,其中男生人数是女生人数的2倍,男生喜欢看
NBA的人数占男生人数的5,女生喜欢看NBA的人数占女生人数的7
63
(1)若被调查的男生人数为n,根据题意建立一个2X2列联表;
⑵若有95%的把握认为是否喜欢看NBA和性别有关,求男生至少有多少人?
解⑴由已知得:
喜欢看NBA
不喜欢看NBA
总计
男生
5n
T
n
6
n
女生
n
n
_n
6
3
2
1.
3n5nnn
5——
22636
⑵X=
2
3-=8n.
若有95%的把握认为是否喜欢看NBA和性别有关,
3
则X>3.841,即Tn>3.841,n>10.24.
8
•n,n为整数,n最小值为12.
26
即:
男生至少12人.
综合题库
判断下面结论是否正确(请在括号中打“V”或“X”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.
(4)某同学研究卖出的热饮杯数y与气温x(C)之间的关系,得回归方程
y=-2.352x+147.767,则气温为2C时,一
定可卖出143杯热饮.
(5)事件X,Y关系越密切,则由观测数据计算得到的X的值越大.
(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,
某人数学成绩优秀,则他有
99%的可能
物理优秀.
2.
F面哪些变量是相关关系
A•出租车车费与行驶的里程
B•房屋面积与房屋价格
C.身高与体重
D•铁块的大小与质量
答案C
3.
为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了
100位居民进行调查,经过计算
X~0.99,根
总计
n
n
2
3n
~2
据这一数据分析,下列说法正确的是
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系
C•有99%的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
答案D
X6.635也只是对“该
解析只有X>6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使
电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.
4.
在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算X=27.63,根据这一数据分析,我们有理由认为
打鼾与患心脏病是的(填“有关”或“无关”).
答案有关
5.
某医疗研究所为了检验某种血清预防感冒的作用,把
冒记录作比较,提出假设H0:
“这种血清不能起到预防感冒的作用”,利用
500名使用血清的人与另外500名未用血清的人一年中的感
2X2列联表计算得X-3.918,已知
P(X>3.841)-0.05对此,四名同学作出了以下的判断:
P:
有95%的把握认为“这种血清能起到预防感冒的作用”;
q:
若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
r:
这种血清预防感冒的有效率为
95%;
S:
这种血清预防感冒的有效率为
5%.
则下列结论中,正确结论的序号是
1.
2.
①pA「q;②「pAq;③(「pA
④(pV「r)A(「qVs).
答案①④
「q)A(rVs);
解析本题考查了独立性检验的基本思想及常用逻辑用语•由题意,得
X-3.918,P(X>3.841)-0.05,所以,只
有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.由真值表知①④为真命题.
某地区调查了2〜9岁的儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y=8.25x+60.13,下列叙述
正确的是
A.该地区一个10岁儿童的身高为142.63cm
B.该地区2〜9岁的儿童每年身高约增加8.25cm
C.该地区9岁儿童的平均身高是134.38cm
D•利用这个模型可以准确地预算该地区每个2〜9岁儿童的身高
答案B
设(X1,y1),(X2,y2),…,(xn,yn)是变量X和y的n个样本点,
直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),
以下结论中正确的是
直线I过点(X,y)
X和y的相关系数为直线I的斜率
X和y的相关系数在0到1之间
D•当n为偶数时,分布在I两侧的样本点的个数一定相同
它的绝对值越接近1,两个变量的线性相关
答案A
解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,
程度越强,所以B、C错误.D中n为偶数时,分布在I两侧的样本点的个数可以不相同,所以D错误•根据线
性回归直线一定经过样本点中心可知A正确.
3.(2012湖南)设某大学的女生体重y(单位:
kg)与身高x(单位:
cm)具有线性相关关系,根据一组样本数据(xi,yi)(i
=1,2,…,n),用最小二乘法建立的回归方程为y=0.85X—85.71,则下列结论中不正确的是
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心
C.若该大学某女生身高增加
1cm,则其体重约增加0.85kg
D.若该大学某女生身高为
170cm,则可断定其体重必为58.79kg
答案D
解析由于回归直线方程中
x的系数为0.85,
因此y与x具有正的线性相关关系,故A正确.
又回归直线方程必过样本点中心(X,y),因此B正确.
由回归直线方程中系数的意义知,x每增加1cm,其体重约增加0.85kg,故C正确.
当某女生的身高为170cm时,其体重估计值是58.79kg,而不是具体值,因此D不正确.
4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
计算可得X=110x40x30—20x202-7.8.
60X50X60X50
附表:
P(X》k)
0.050
0.010
k
3.841
6.635
参照附表,得到的正确结论是
A.有99%以上的把握认为
“爱好该项运动与性别有关”
B.有99%以上的把握认为
“爱好该项运动与性别无关”
C•在犯错误的概率不超过
0.1%的前提下,认为“爱好该项运动与性别有关”
D•在犯错误的概率不超过
0.1%的前提下,认为“爱好该项运动与性别无关”
答案A
解析根据独立性检验的定义,由X-7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”
故选A.
5.
(2013大连模拟)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
A
根据上表可得回归直线方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
答案B
解析
—2'
y=49+26T39+54=42,
又y=bx+a必过(x,
y),
=9.1.
A
•••回归直线方程为y=9.4x+9.1.
•••当x=6时,y=9.4X6+9.1=65.5(万元).
6.
以下四个命题,其中正确的序号是
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽
样;
2两个随机变量相关性越强,则相关系数的绝对值越接近于
3在回归直线方程y=0.2X+12中,当解释变量x每增加一个单位时,预报变量y平均增加0.2个单位;
4对分类变量X与丫,它们的随机变量X来说,X越小,“X与丫有关系”的把握程度越大.
答案②③
解析①是系统抽样;对于④,随机变量X越小,说明两个相关变量有关系的把握程度越小.
7.
已知回归方程y=4.4x+838.19,则可估计x与y的增长速度之比约为
答案5:
22
解析x每增长1个单位,y增长4.4个单位,故增长的速度之比约为1:
4.4=5:
22.
事实上所求的比值为回归直线方程斜率的倒数.
cm.
某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm.因儿子的身高与父亲的身
高有关,该老师用线性回归分析的方法预测他孙子的身高为
答案185
解析儿子和父亲的身高可列表如下:
父亲身高
173
170
176
儿子身高
170
176
182
设回归直线方程为y=a+bX,由表中的三组数据可求得b=1,故a=y—bx=176—173=3,故回归直线
方程为y=3+X,将x=182代入得孙子的身高为185cm.
9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:
mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂
生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.90.
r?
9.94.
[貂.9氛
L3O.O2*
[30.06*
[30,10*
29.90
29.94)
30.02)
30,0'6.)
30,10.)
30.14.)
频数
12
63
8S
1S2
92
61
4
乙厂:
分组
Z29.S6.
Z29.列.
[29,9S,
[30.02*
3.0队
Z30.10..
29.90)
短94)
30.02)
30,0(5)
3Q.10)
30.14)
频数
29
71
S5
159
76
Ifi
⑴试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2X2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?
甲厂
乙厂
合计
优质品
非优质品
合计
O.Maoi
I
工SUI6635
解
(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360=72%;
醍=64%.
500
乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为
⑵完成的2X2列联表如下:
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1000
由表中数据计算
1000X360X180-320X1402"7.35>6.635,
x500X500X680X320
所以有99%的把握认为“两个分厂生产的零件的质量有差异”
10.(2013重庆)从某居民区随机抽取10个家庭,获得第i个家庭的月收入Xi(单位:
千元)与月储蓄yi(单位:
千元)的数
10101010
据资料,算得Xi=80,yi=20,Xiyi=184,好=720.
i=1i=1i=1i=1
(1)求家庭的月储蓄y对月收入x的回归直线方程y=bx+a;
⑵判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
n_
xiyi—nxyi=1
附:
回归直线方程y=bx+a中,b=
a=y—bx,其中x,y为样本平均值.
x2—nx2
1n80
解
(1)由题意知n=10,x=-xi=10=8,
n
„I
i=1
-1n20cy=-i=1yi=矿2,
又lxx=x2—nx2=720—10X82=80,
lxy=Xiy—nxy=184—10X8X2=24,
i=1
由此得b=严=|t=0.3,
lxx80
=y—bx=2—0.3X8=—0.4,
故所求回归直线方程为y=0.3x—04
⑵由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.
⑶将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3X7—0.4=1.7(千元).
1.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程y=3-5X,变量x增加一个单位时,y平均增加5个单位;
③回归方程y=bx+a必过(X,y);
④有一个2X2列联表中,由计算得X=13.079,则有99%的把握确认这两个变量间有关系.
其中错误的个数是
答案B
解析一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①
正确;回归方程中x的系数具备直线斜率的功能,对于回归方程y=3—5X,当x增加一个单位时,y平均减少5
AAA
y=bx+a必过点(x,
个单位,②错误;由回归直线方程的定义知,回归直线方程
y),③正确;因为X=
13.079>6.635,故有99%的把握确认这两个变量有关系,④正确.故选B.
2.(2013福建)已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据
(1,0)和(2,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 变量 相关 关系 统计 案例