内容正文:
8.1 成对数据的统计相关性
课程标准
素养解读
1.了解变量间的相关关系
2.会根据散点图判断数据是否具有相关关系
3.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果
1.通过相关关系的判断,提升数学建模与直观想象素养
2.通过学习相关系数,培养数学运算的素养
[情境引入]
在中学校园里,有这样一种说法:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着某种关系.我们把数学成绩和物理成绩看成是两个变量,那么这两个变量之间的关系是函数关系吗?这两个变量之间相关关系如何?
问题:什么是相关系数,如何计算,它有什么作用?
[知识梳理]
[知识点一] 变量的相关关系
1.两个变量的关系
分类
函数关系
相关关系
特征
两变量有 确定 的关系
两个变量有关系,但又没有确切到可由其中一个去 精确地决定 另一个的程度
2.散点图:将样本中的每一个序号下的成对数据用 直角坐标系 中的点表示出来得到的统计图.
3.正相关与负相关
正相关
负相关
当一个变量的值增加时,另一个变量的相应值也呈现 增加的趋势
当一个变量的值增加时,另一个变量的相应值呈现 减少的趋势
4.线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在 一条直线 附近,则称这两个变量线性相关.
1.相关关系与函数关系有什么区别和联系?
提示:相关关系与函数关系辨析
分类
函数关系
相关关系
特征
变量之间的关系具有确定性,当一个变量+确定后,另一个变量就确定了
变量之间确实有一定的关系,但没有达到可以互相决定的程度,它们之间的关系带有一定的随机性
2.正相关与负相关是对所有具有相关关系的两个变量而言的,对吗?
提示:不对,正相关与负相关是针对线性相关关系而言的.
[知识点二] 样本的相关系数
1.相关系数:统计学里一般用
来衡量y与x的 线性相关程度的强弱 ,这里的r称为样本相关系数(简称相关系数).
2.相关系数的性质
(1) r>0 时,成对数据正相关; r<0 时,成对数据负相关,-1≤r≤1.
(2)|r|越小,两个变量之间的线性相关程度越 弱 ,|r|越大,两个变量之间的线性相关程度越 强 .
(3)|r|=1时,成对数据构成的点都在 一条确定的直线 上.
3.|r|的大小有何实际意义?
提示:|r|越小,两个变量之间的线性相关性越弱;|r|越大,两个变量之间的线性相关性越强.
[预习自测]
1.判断正误(正确的打“√”,错误的打“×”).
(1)两个变量的相关关系是一种确定的关系.( )
(2)两个变量的相关系数越大,它们的相关程度越强.( )
(3)当一个变量的值增加时,另一个变量的值随之减少,则称这两个变量负相关.( )
(4)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.( )
提示:(1)× 两个变量的相关关系不是一种确定的关系,是一种随机关系.
(2)× 相关系数|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.
(3)× 存在相关关系的两个变量,当一个变量增加时,另一个变量的相应值呈减少的趋势,则称这两个变量负相关.
(4)√
2.根据一组数据判断两个变量是否线性相关时,应选( )
A.茎叶图 B.频率分布直方图
C.散点图 D.频率分布折线图
解析:C [判断两个变量是否有线性相关关系时,应先画出散点图.若这些点大体分布在一条直线附近则具有线性相关关系.]
3.已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A.-0.95 B.-0.13
C.0.15 D.0.96
解析:A [相关系数r<0时,成对数据负相关,且|r|越大,两个变量之间的线性相关程度越强.]
变量间相关关系的判断
[例1] (1)下列关系中,属于相关关系的是 ______ .(填序号)
①扇形的半径与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
[思路点拨] 依据相关关系的概念判断.
解析:在①中,扇形的半径与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.
答案:②④
(2)下面是水稻产量与施化肥量的一组观测数据:
施化肥量
15
20
25
30
35
40
45
水稻产量
320
330
360
410
460
470
480
①将上述数据制成散点图.
②你能从散点图中发现施化肥量与水稻产量具有什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?
[思路点拨] 画出散点图进行判断.
解:①散点图如图.
②从图中可以发现当施化肥量由小到大变化时,水稻产量由小变大,图中的散点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系.结合实际可知,水稻产量只是在一定范围内随着施化肥量的增加而增长.
两个变量是否相关的两种判断方法
1.根据实际经验:借助积累的经验进行分析判断.
2.利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
[变式训练]
1.(1)下列两个变量之间,是相关关系的有( )
①角度与它的余弦值;②人的体重与视力;③正n边形的边数和它的内角度数之和;④圆心角的大小与所对的圆弧长;⑤光照时间和果树亩产量;⑥收入水平与购买能力;⑦正方体的棱长与体积.
A.①④⑥ B.②⑤⑥⑦
C.⑤⑥ D.③⑤⑦
解析:C [①③④⑦是函数关系;②没有关系;⑤⑥是相关关系.]
(2)10对中国父子的身高(英寸)如下:
父亲
身高
(x)
60
62
64
65
66
67
68
70
72
74
儿子
身高
(y)
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
试根据上述资料:
①画出散点图;
②变量x和y之间是否具有线性关系?
③人们常说,父亲高,儿子肯定不矮,你赞成这种说法吗?
解:①图略. ②由散点图可知,变量x和y之间有线性相关关系.
③不赞成.父亲的身高与儿子的身高是相关关系,不是确定关系.
相关系数与相关程度的判断
[例2] 一般来说,一个人的身高越高,他的手就越大,为调查这一问题,对某校10名高一男生的身高与右手长度进行测量得到如下数据(单位:cm):
身高
168
170
171
172
174
176
178
178
180
181
右手
长度
19.0
20.0
21.0
21.5
21.0
022.0
23.0
24.0
22.5
23.0
(1)判断两者有无线性相关关系;
(2)如果具有线性相关关系,判断相关性的强弱.
[思路点拨] 作出散点图,判断线性相关性;根据公式求出相关系数,结论.
解:(1)散点图如图所示:
可见,身高与右手长度之间的总体趋势为一条直线,即它们线性相关.
(1) 根据以上数据可由计算器计算得=174.8,=21.7,
=
=≈0.9.
故两者有很强的线性相关关系.
相关系数的关注点
1.相关系数可以反映两个变量之间的线性相关程度,即散点集中于一条直线的程度,其符号反映了相关关系的正负性.
2.变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.
[变式训练]
2.关于两个变量x和y的7组数据如表所示:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断y与x是否线性相关,并刻画它们的相关程度.
解:画散点图(图略),观察散点图,可以看出样本点都集中在一条直线附近,由此判断y与x线性相关.
=×(21+23+25+27+29+32+35)≈27.4,
=×(7+11+21+24+66+115+325)≈81.3,
=
≈≈0.837 5.
所以y与x具有很强的线性相关关系.
[当堂达标]
1.(多选)在下列各变量之间的关系中,属于相关关系的是( )
A.汽车的重量和百公里耗油量
B.正n边形的边数与内角度数之和
C.一块农田的小麦产量与施肥量
D.家庭的经济条件与学生的学习成绩
解析:AC [汽车的重量越大,百公里耗油量会越多.在合适的范围内,农田的施肥量越大,小麦产量一般会越多.A、C是相关关系.B是函数关系.D中家庭经济条件与学生的学习成绩之间不是相关关系,也不是函数关系.]
2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析的方法分别求得相关系数r如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则 ________ 同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
解析:D [r的绝对值越接近1,相关性越强,故选D.]
3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析:C [对变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1.]
4.如图所示,有A,B,C,D,E共5组数据,去掉 ________ 组数据后,剩下的4组数据具有较强的线性相关关系.
解析:当散点图中的点分布在一条直线附近时,样本数据有较强的线性相关关系,可知应去掉D组数据.
答案:D
5.现随机抽取某中学高一10名在校学生,他们入学时的数学成绩x与入学后第一次考试的数学成绩y如下表所示.
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
Y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有较强+的线性相关关系?
若|r|>0.75,则我们可以认为y与x之间具有较强的线性相关关系.
解:由题意知,利用计算工具可得=×(120+108+117+104+103+110+104+105+99+108)=107.8,=×(84+64+84+68+69+68+69+46+57+71)=68,x=116 584,y=47 384,xiyi=73 796.
所以样本相关系数
r=≈0.750 6.
|r|>0.75,故我们可以认为y与x之间具有较强的线性相关关系.
即这10名学生的两次数学成绩具有较强的线性相关.
[基础过关]
1.下面变量之间是相关关系的是( )
A.出租车费与行驶的里程
B.房屋面积与房屋价格
C.人的身高与体重
D.铁的体积与质量
解析:C [C是相关关系,A,B,D是函数关系.]
2.某校学生科研兴趣小组为了解1~12岁儿童的体质健康情况,随机调查了20名儿童的相关数据,分别制作了肺活量、视力、肢体柔韧度、BMI指数和身高之间的散点图,则与身高之间具有正相关关系的是( )
A.肺活量 B.视力
C.肢体柔韧度 D.BMI指数
解析:A [对于A,儿童的身高越高,其肺活量越大,肺活量与身高具有正相关关系,A正确;
对于B,儿童的视力随身高的增大先增大,后减小,视力与身高不具有正相关关系,B错误;
对于C,肢体柔韧度随身高增大而减小,肢体柔韧度与身高不具有正相关关系,C错误;
对于D,BMI指数与身高的相关性很弱,不具有正相关关系,D错误.]
3.两个变量负相关时,散点图的特征是( )
A.点散布在从左下角到右上角的区域内
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点散布在从左上角到右下角的区域内
解析:D [有负相关关系的各点整体呈递减趋势,因此点应该散布在从左上角到右下角的区域内.]
4.对两个变量x,y进行线性相关检验,得到线性相关系数r1=0.785 9,对两个变量u,v进行线性相关检验,得线性相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
解析:C [由线性相关系数r1=0.785 9>0知x与y正相关,由线性相关系数r2=-0.956 8<0知u,v负相关,又|r1|<|r2|,所以变量u与v的线性相关性比x与y的线性相关性强.]
5.(多选)以下各对变量成正相关的是( )
A.学生的学籍号与学生的数学成绩
B.坚持每天吃早餐的人数与患胃病的人数
C.气温与冷饮销售量
D.电瓶车的质量和行驶每千米的耗电量
解析:CD [对于A,学生的学籍号与学生的数学成绩没有相关关系;对于B,一般情况下,坚持每天吃早餐的人数与患胃病的人数成负相关关系;对于C,一般情况下,气温与冷饮销售量成正相关关系;对于D,一般情况下,电瓶车的质量和行驶每千米的耗电量成正相关关系.]
6.(多选)下列关于相关系数r的说法正确的是( )
A.相关系数r越大两个变量间相关性越强
B.相关系数r的取值范围为[-1,1]
C.相关系数r>0时两个变量正相关,r<0时两个变量负相关
D.相关系数r=1时,样本点在同一直线上
解析:BCD [根据相关系数的意义对每个结论进行分析、判断可得错误的结论.
对于相关系数r,有以下结论:①当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.②r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.
对于A,当r<0时此结论不成立,所以A不正确.
对于B,由相关系数的性质可得-1≤r≤1,所以B正确.
对于C,由相关系数的性质可得正确.
对于D,由相关系数的性质可得正确.故选BCD.]
7.下列两个变量之间具有相关关系的是 ______ .(填序号)
①正方形的边长a和面积S;
②一个人的身高h和右手一拃长x;
③真空中的自由落体运动其下落的距离h和下落的时间t;
④一个的身高h和他的体重x.
解析:对于①,正方形的边长a和面积S是函数关系,不是相关关系;对于②,一般情况下,一个人的身高h和右手一拃长x是正相关关系;对于③,真空中的自由落体运动其下落的距离h和下落的时间t是函数关系,不是相关关系;对于④,一般情况下,一个人的身高h和他的体重x是正相关关系.
答案:②④
8.已知求得甲、乙、丙3组不同数据的线性相关系数分别为0.81,-0.98,0.63,其中 ________ (填甲、乙、丙中的一个)组数据的线性相关性最强.
解析:两个变量y与x的相关系数的绝对值越接近于1,它的线性相关性越强.在甲、乙、丙中,所给的数值中|-0.98|是最大的值,即乙的线性相关性最强.
答案:乙
9.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为 ________ .
解:法一:=1.5,=1,
.
法二:观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为-1.
10.近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在M省的发展情况,M省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的A,B,C三项指标数据xi,yi,zi(i=1,2,3,4,5),数据如表所示:
城市编号i
1
2
3
4
5
A指标xi
4
6
2
8
5
B指标yi
4
4
3
5
4
C指标zi
3
6
2
5
4
利用向量夹角来分析y与x之间及z与x之间的相关关系.
解析:由已知得==5,==4,==4,将题表中x,y,z的相关数据分别减去,,,记a=(x1-,x2-,x3-,x4-,x5-),b=(y1-,y2-,y3-,y4-,y5-),c=(z1-,z2-,z3-,z4-,z5-).则a=(-1,1,-3,3,0),b=(0,0,-1,1,0),c=(-1,2,-2,1,0).于是cos〈a,b〉
=
==≈0.95,
cos〈a,c〉=
==≈0.85,所以y与x,z与x正相关,又cos〈a,b〉>cos〈a,c〉,则y与x之间的相关性比z与x之间的相关性强.
11.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x
2
4
6
8
y
30
40
50
70
x与y之间是否具有线性相关关系?若有,判断相关性的强弱.
解:画出散点图如图所示,由图可知x,y有线性相关关系.
=≈0.982 7.
故x与y之间具有很强的正相关关系.
[能力提升]
12.广阳岛,作为长江上游最大的江心岛,其面积在枯水期约为10平方公里.自2017年起,重庆市开始对广阳岛进行系统的生态修复,摒弃了曾经的商业开发计划,转而建设“长江风景眼,重庆生态岛”.经过数年的努力,广阳岛的生态得到了显著的改善,不仅植被丰富,生物多样性也得到了极大的提升.据监测,岛上的鸟类从生态修复前的124种增加到213种,其中包括中华秋沙鸭、游隼、白琵鹭等珍稀鸟类.为调查广阳岛某种鸟的数量,将其分成面积相近的50个地块,从这些地块中用简单随机抽样的方法抽取5个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,5),其中xi和yi分别表示第i个样区的植被覆盖面积(单位:平方公里)和这种鸟的数量.
i
1
2
3
4
5
xi
0.171
0.152
0.192
0.189
0.196
yi
12
10
16
14
18
(1)求广阳岛这种鸟数量的估计值(这种鸟数量的估计值等于样区这种鸟数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,5)的相关系数(精确到0.01);
(3)根据统计资料,各地块间植物覆盖面积差异较大.为提高样本的代表性以获得广阳岛这种鸟数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,r=
解析:(1)由已知得样本平均数==14,从而广阳岛这种鸟数量的估计值为14×50=700.
(2)=0.18,=14, (xi-)(yi-)=0.009×2+0.028×4+0.012×2+0.016×4=0.218,
故样本的相关系数r≈≈0.94
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样.
理由如下:由(2)知各样区的这种鸟数量与植物覆盖面积有很强的正相关,由于各地块间植物覆盖面积差异很大,从而各地块间这种鸟数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得广阳岛这种鸟数量更准确的估计.
答案:(1)700
(2)0.94
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对50个地块进行分层抽样,理由见解析
13.现随机抽取了某校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如表:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学考试成绩是否具有显著的线性相关关系?
解:=(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68,
所以,相关系数为
r=
≈0.750 6,
故两次数学考试成绩有显著的线性相关关系.
[素养培优]
14.为了监控某种医疗物资的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个医疗物资,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个医疗物资的尺寸:
抽取
次数
1
2
3
4
5
6
7
8
医疗物
资尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取
次数
9
10
11
12
13
14
15
16
医疗物
资尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
其中xi为抽取的第i个医疗物资的尺寸,i=1,2,3,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的医疗物资尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为医疗物资尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检医疗物资中,如果出现了尺寸在(-3s,+3s)之外的医疗物资,就认为这条生产线在这一天的生产过程中可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=
.
解:(1)由样本数据得(x,i)(i=1,2,3,…,16)的相关系数为
=≈-0.18;
由于|r|<0.25,因此可以认为这一天生产的医疗物资尺寸不随生产过程的进行而系统地变大或变小.
(2)由于=9.97,s≈0.212,
由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
学科网(北京)股份有限公司
$