内容正文:
8.1 成对数据的统计相关性
【考点1:判断两个变量是否有相关关系】
【考点2:判断正、负相关】
【考点3:相关系数的意义及辨析】
【考点4:相关系数的计算】
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
(4)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
【考点1:判断两个变量是否有相关关系】
【典例1】多选题下列各组的两个变量中呈正相关关系的是( )
A.学生的身高与学生的化学成绩
B.汽车行驶的里程与它的耗油量
C.人的年龄与年收入
D.水果的重量与它的总价
【变式1-1】多选题下列关系是相关关系的是( )
A.角度和它的正弦值之间的关系
B.某商场搞促销活动与销售量之间的关系
C.作文水平与课外阅读量之间的关系
D.底面积一定的三棱锥的体积与高之间的关系
【变式1-2】下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【考点2:判断正、负相关】
【典例2】对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【变式2-1】下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
【变式2-2】变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.可能存在负相关B.可能存在正相关 C.一定存在正相关 D.一定存在负相关
【变式2-3】根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【考点3:相关系数的意义及辨析】
【典例3】对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81
C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53
【变式3-1】现有一组样本数据点,则该组样本数据点的相关系数( )
A. B. C. D.1
【变式3-2】某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
【变式3-3】甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
【考点4:相关系数的计算】
【典例4】近期新冠病毒奥密克戎毒株全球蔓延,传染性更强、潜伏期更短、防控难度更大.为落实动态清零政策下的常态化防疫,某高中学校开展了每周的核酸抽检工作:周一至周五,每天中午13:00开始,当天安排450位师生核酸检测,五天时间全员覆盖.
(1)该校教职工有410人,高二学生有620人,高三学生有610人,
①用分层抽样的方法,求高一学生每天抽检人数;
②高一年级共15个班,该年级每天抽检的学生有两种安排方案,方案一:集中来自部分班级;方案二:分散来自所有班级.你认为哪种方案更合理,并给出理由.
(2)学校开展核酸抽检的第一周,周一至周五核酸抽检用时记录如下:
第天
1
2
3
4
5
用时(小时)
1.2
1.2
1.1
1.0
1.0
①计算变量和的相关系数(精确到0.01),并说明两变量线性相关的强弱;
②根据①中的计算结果,判定变量和是正相关,还是负相关,并给出可能的原因.
参考数据和公式:,相关系数.
【变式4-1】某景区对2017-2022年景区内农家乐接待人数(单位:万人)进行了统计,得到数据如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号
1
2
3
4
5
6
接待人数万人
4.5
5.6
6.1
6.4
6.8
7.2
则接待人数与年份的相关系数约为( )(参考数据:)
A.0.65 B.0.71 C.0.89 D.0.97
【变式4-2】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据,其中,和,分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得.
(1)求样本的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度;
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
附:相关系数
1
学科网(北京)股份有限公司
$$
8.1 成对数据的统计相关性
【考点1:判断两个变量是否有相关关系】
【考点2:判断正、负相关】
【考点3:相关系数的意义及辨析】
【考点4:相关系数的计算】
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
(4)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
【考点1:判断两个变量是否有相关关系】
【典例1】多选题下列各组的两个变量中呈正相关关系的是( )
A.学生的身高与学生的化学成绩
B.汽车行驶的里程与它的耗油量
C.人的年龄与年收入
D.水果的重量与它的总价
【答案】BD
【分析】根据相关关系的概念,逐项判定,即可求解.
【详解】由题意知,选项A,为非确定性关系,
选项B为相关关系,且为正相关关系.
选项C,为非确定性关系,
选项D,为相关关系,且为正相关关系.
故选:BD
【变式1-1】多选题下列关系是相关关系的是( )
A.角度和它的正弦值之间的关系
B.某商场搞促销活动与销售量之间的关系
C.作文水平与课外阅读量之间的关系
D.底面积一定的三棱锥的体积与高之间的关系
【答案】BC
【分析】根据相关关系的定义即可判断.
【详解】A,D选项两个变量之间的关系是函数关系,
B,C选项两个变量之间的关系是相关关系.
故选:BC.
【变式1-2】下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【答案】B
【分析】根据相关关系的定义判断.
【详解】对于A:产品的样本与生产数量是相关关系,故A正确;
对于B:设球的半径为,球的表面积为、体积为,
则,所以,而,
所以球的表面积与体积是一种函数关系,故B错误;
对于C:家庭的支出与收入是相关关系,故C正确;
对于D:人的年龄与体重是相关关系,故D正确.
故选:B
【考点2:判断正、负相关】
【典例2】对变量,有观测数据,得散点图;对变量,有观测数据,得散点图2.由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【答案】B
【分析】根据散点图点的变化关系确定正负相关性即可.
【详解】由变量,的散点图,知随增大,也增大,变量与正相关,
由变量,的散点图,知随增大,减小,与负相关.
故选:B
【变式2-1】下列两个变量中,成正相关的两个变量是( )
A.汽车自身的重量与行驶每公里的耗油量
B.正方形面积与边长
C.花费在体育活动上面的时间与期末考试数学成绩
D.期末考试随机编排的准考证号与期末考试成绩总分
【答案】A
【分析】利用正相关的定义逐项判断可得答案.
【详解】对于A,一般情况下,汽车越重,则每公里耗油量越多,成正相关,故A正确;
对于B,正方形的面积与边长是函数关系,故B错误;
对于C,一般情况下,若花费在体育活动上面的时间越长,则期末考试数学成绩可能会降低,故不为正相关,故C错误;
对于D,期末考试随机编排的准考证号与期末考试成绩总分没有相关关系,故D错误.
故选:A.
【变式2-2】变量x与y的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间( )
A.可能存在负相关B.可能存在正相关 C.一定存在正相关 D.一定存在负相关
【答案】A
【分析】根据散点图以及相关关系的定义判断即可.
【详解】解:从散点图看,这些点在一条线的附近,且从左上角到右下角呈递减的趋势,所以据此可以推断变量x与y之间可能存在负相关,
故选:A.
【变式2-3】根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【答案】D
【分析】由正、负相关的概念得解.
【详解】由所给数据可知,当增大时减小,和呈负相关;当增大时和增大,和呈正相关.
故选:D
【考点3:相关系数的意义及辨析】
【典例3】对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型Ⅰ:相关系数r为 B.模型Ⅱ:相关系数r为0.81
C.模型Ⅲ:相关系数r为 D.模型Ⅳ:相关系数r为0.53
【答案】A
【分析】根据相关系数与拟合效果的关系即可求解.
【详解】相关系数越大,拟合效果越好.
故选:A.
【变式3-1】现有一组样本数据点,则该组样本数据点的相关系数( )
A. B. C. D.1
【答案】D
【分析】注意到样本数据点均在直线上,根据题意结合相关系数的意义分析判断即可.
【详解】根据题意可知:这些样本数据点均在直线上,故,
由直线的斜率为正,可知,所以.
故选:D.
【变式3-2】某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
【答案】C
【分析】根据散点图和相关系数的概念得到,,进而得到答案.
【详解】由题图可知,所对应的图中的散点呈现正相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
,所对应的图中的散点呈现负相关,
而且对应的散点图更接近直线,相关性比对应的相关性要强,故,
因此.
故选:C.
【变式3-3】甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
【答案】甲
【分析】根据相关系数的性质即可求解.
【详解】因为,所以这四人中,甲研究的两个随机变量的线性相关程度最高.
故答案为:甲.
【考点4:相关系数的计算】
【典例4】近期新冠病毒奥密克戎毒株全球蔓延,传染性更强、潜伏期更短、防控难度更大.为落实动态清零政策下的常态化防疫,某高中学校开展了每周的核酸抽检工作:周一至周五,每天中午13:00开始,当天安排450位师生核酸检测,五天时间全员覆盖.
(1)该校教职工有410人,高二学生有620人,高三学生有610人,
①用分层抽样的方法,求高一学生每天抽检人数;
②高一年级共15个班,该年级每天抽检的学生有两种安排方案,方案一:集中来自部分班级;方案二:分散来自所有班级.你认为哪种方案更合理,并给出理由.
(2)学校开展核酸抽检的第一周,周一至周五核酸抽检用时记录如下:
第天
1
2
3
4
5
用时(小时)
1.2
1.2
1.1
1.0
1.0
①计算变量和的相关系数(精确到0.01),并说明两变量线性相关的强弱;
②根据①中的计算结果,判定变量和是正相关,还是负相关,并给出可能的原因.
参考数据和公式:,相关系数.
【答案】(1)①人,②方案二,理由见解析
(2)①,线性相关性很强;②负相关,理由见解析;
【分析】(1)①首先求出高一年级的总人数,即可求出高一学生每天抽检人数;②显然分散抽检更合理;
(2)根据相关系数公式求出,即可判断线性相关关系,根据相关系数的正负判断即可,再给出合理解析即可;
【详解】(1)解:①高一学生每天抽检人数为(人);
②方案二更合理,因为新冠病毒奥密克戎毒株传染性更强、潜伏期更短,分散抽检可以全面检测年级中每班学生的状况,更有利于防控筛查工作;
(2)解:①,,
所以,
,
变量和的相关系数为,
因为,可知两变量线性相关性很强;
②由可知变量和是负相关,可能的原因:随着抽检工作的开展,学校相关管理协调工作效率提高,因此用时缩短;
【变式4-1】某景区对2017-2022年景区内农家乐接待人数(单位:万人)进行了统计,得到数据如下表:
年份
2017
2018
2019
2020
2021
2022
年份编号
1
2
3
4
5
6
接待人数万人
4.5
5.6
6.1
6.4
6.8
7.2
则接待人数与年份的相关系数约为( )(参考数据:)
A.0.65 B.0.71 C.0.89 D.0.97
【答案】D
【分析】根据已知数据分别计算各个量得出的值即可.
【详解】由题得,
所以,
故接待人数与年份的相关系数约为0.97.
故选:D.
【变式4-2】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据,其中,和,分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得.
(1)求样本的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度;
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
附:相关系数
【答案】(1)0.94,相关性较强.
(2)见解析
【分析】(1)根据相关系数的计算公式即可代入求解,
(2)根据超几何概率的概率公式求解概率,即可得分布列.
【详解】(1)样本,,2,, 的相关系数为
.
由于相关系数,,则相关性很强,的值越大,相关性越强.
故,故相关性越强.
(2)由题意得:的可能取值为0,1,2,
20个样区中有8个样区的这种野生动物数量低于样本平均数,有12个样区的这种野生动物数量不低于样本平均数,
所以,
,
,
所以的分布列为:
0
1
2
【变式4-3】某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
产量(件)
1
2
3
4
5
生产总成本(万元)
3
7
8
10
12
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:.
参考数据:.
【答案】0.98,与高度正相关.
【分析】根据公式代入计算即可.
【详解】解:,
,
,
,
,
故相关系数,
,
与高度正相关.
1.下面是不同成对数据的散点图,从左到右对应的样本相关系数是,其中最小的是( )
A. B. C. D.
【答案】B
【分析】利用散点图变化趋势,判断相关系数的正负,由散点图的集中程度确定大小,即可得到答案.
【详解】由散点图变化趋势可知,
由第二组散点图更为集中,更接近于一条直线,所以,
故相关系数最小的为.
故选:B
2.如图所示,5 个数据,去掉 后,下列说法正确的是( )
A.相关系数变小 B.决定系数变小
C.残差平方和变小 D.解释变量与预报变量的相关性变弱
【答案】C
【分析】由散点图知,去掉离群点后, 与的相关性变强,且为正相关,由此判断即可.
【详解】由散点图知,去掉离群点后,与的相关性变强,且为正相关,
所以相关系数的值变大,决定系数的值变大,残差平方和变小.
故选:C.
3.某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数分别为,则拟合效果最好的模型是( )
A.甲 B.乙 C.丙 D.丁
【答案】D
【分析】线性回归模型中越接近1,效果越好,即可得出答案.
【详解】越大,则回归模型的拟合效果越好,
因为,所以拟合效果最好的是模型丁.
故选:D.
4.为制定某种产品的生产计划,某工厂统计得到生产线条数与该种产品产量的数据如下表:
生产线条数
1
2
3
4
5
产量
21
39
64
87
104
则下列说法正确的是( )
A.与负相关 B.与正相关
C.与不相关 D.与成正比例关系
【答案】B
【分析】由正、负相关的概念即可判断.
【详解】由题中数据可知,y随x的增大而增大,且不成比例关系,故y与x正相关.
故选:B
5.下列散点图中,两个变量呈负相关的个数是( )
A.1 B.2 C.3 D.4
【答案】B
【分析】由正、负相关的概念逐项判断即可.
【详解】从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则这两个变量为负相关.
结合散点图可知,①②满足题意,即两个变量呈负相关的个数为2个.
故选:B
6.下列说法中正确的是( )
A.中的,是具有相关关系的两个变量
B.正四面体的体积与其棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.某地区感染流感人数与外来流感患者人数是具有相关关系的两个变量
【答案】D
【分析】对于,,是函数关系;对于,体积与棱长的关系是确定的,属于确定性关系;对于,电脑的销售量受多种因素的影响不是确定关系,对于,两个变量是相关关系.
【详解】对于,,是函数关系,属于确定性关系,不是相关关系,故不正确;
对于,体积与棱长的关系是确定的,属于确定性关系,不是相关关系,故不正确;
对于,电脑的销售量除了受电脑价格的影响之外,还受电脑品牌,电脑性能,同行竞争等多种因素的影响,不是确定关系,故不正确;
对于,某地区感染流感人数与外来流感患者人数是具有相关关系的两个变量,故正确.
故选:.
7.已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【分析】根据已知条件,结合变量间的相关关系,结合图象分析判断即可.
【详解】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,所以残差平方和变小,所以C错误,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
故选:B.
8.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,, )
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
9.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分
1
2
3
4
5
用时小时)
a
b
c
d
e
由上表数据得到的正确结论是( )
参考数据:
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【答案】C
【分析】求出相关系数,根据相关系数的大小确定答案即可.
【详解】因为相关系数.
即相关系数近似为与负相关,且相关程度相当高,从而可用线性回归模型拟合与的关系.
所以选项ABD错误,C正确.
故选:C.
10.若一个样本的观测值与均值的差的平方和为,残差平方和为,则决定系数 .
【答案】/
【分析】根据决定系数的求法求得正确答案.
【详解】依题意,.
故答案为:.
11.某高中数学兴趣小组,在学习了统计案例后,准备利用所学知识研究成年男性的臂长(cm)与身高(cm)之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159
165
170
176
180
67
71
73
76
78
根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
【答案】说明见解析
【分析】利用相关系数的计算公式即可得解;
【详解】由表中的数据和附注中的参考数据得
,,,,
,
,,
∴.
因为与的相关系数近似为0.997,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.
1
学科网(北京)股份有限公司
$$