内容正文:
第09讲 成对数据的统计相关性
目录
题型归纳 1
题型01 相关关系与函数关系的概念及辨析 2
题型02 判断两个变量是否有相关关系 4
题型03 判断正、负相关 6
题型04 相关系数的意义及辨析 9
题型05 相关系数的计算 11
题型06 残差的计算 15
题型07 相关指数的计算及分析 17
题型08 非线性回归 19
分层练习 23
夯实基础 23
能力提升 32
知识点01变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
知识点02散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
知识点03线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
题型01相关关系与函数关系的概念及辨析
【例1】(21-22高二下·福建宁德·期末)对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.0.87
【答案】D
【知识点】相关关系与函数关系的概念及辨析
【分析】根据相关系数与变量间相关性的关系,即可得答案.
【详解】由相关系数的绝对值越大,变量间的线性相关性越强知:各选项中的绝对值最大.
故选:D
【变式1】(21-22高二下·四川成都·期中)下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.儿童的年龄与体重 D.物体的体积和质量
【答案】C
【知识点】相关关系与函数关系的概念及辨析
【分析】根据相关关系和函数关系的概念即可判断
【详解】A、D是函数关系;B是不相关关系;C是相关关系,
故选:C
【变式2】(22-23高二下·上海金山·期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明( )
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
【答案】C
【知识点】相关关系与函数关系的概念及辨析
【分析】根据正相关的定义可得出结论.
【详解】因为两种证券在一段时间内收益数据的相关系数为正数,
那么表明两种证券的收益有同向变动的倾向,C对,ABD错.
故选:C.
【变式3】(2021高二·全国·专题练习)下列两个变量之间的关系是函数关系的是 .
①角度和它的余弦值;②正方形的边长和面积
③正n边形的边数和内角和;④人的年龄和身高
【答案】①②③
【知识点】相关关系与函数关系的概念及辨析
【分析】利用函数关系是变量间的确定性关系的事实对四个命题依次判断即可得解.
【详解】①②③中的两个变量之间是一种确定性的关系,都是函数关系,它们的函数关系式分别为f(θ)=cosθ,g(a)=a2,h(n)=(n-2)×180°,
④中人的年龄和身高这两个变量不是确定性的关系,它们不是函数关系,对于年龄相同的人来说,有很多不同的身高值.
故答案为:①②③
题型02 判断两个变量是否有相关关系
【例2】(23-24高二下·辽宁·期中)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量 B.举重运动员所能举起的最大重量与他的体重
C.某正方形的边长与此正方形的面积 D.人的身高与体重
【答案】C
【知识点】函数关系的判断、判断两个变量是否有相关关系
【分析】根据变量间的相关关系和函数关系判断即可.
【详解】C中的两个变量之间是确定的函数关系,A,B,D中的两个变量之间的关系都是相关关系.
故选:C
【变式1】(23-24高二下·山东潍坊·期中)下列两个变量之间的关系是相关关系的是( )
A.正方形的边长与对角线长 B.球的体积与表面积
C.一个人的身高与学习成绩 D.平均学习时间与学习成绩
【答案】D
【知识点】判断两个变量是否有相关关系
【分析】根据相关关系的定义判断.
【详解】选项AB中两个变量间是一种函数关系,选项C中两个变量之间没有什么关系,
选项D中,学习成绩与平均学习时间有关,但不仅与时间有关,
还与其他变量有关如学习时专注性,个人的学习习惯等有关,因此D是相关关系.
故选:D.
【变式2】(21-22高二下·吉林长春·期中)在以下4幅散点图中,图 中的y和x之间存在相关关系(将正确答案的序号填在横线上)
【答案】(2)(3)(4)
【知识点】判断两个变量是否有相关关系
【分析】根据散点图直接分析可知.
【详解】图(2)(3)中的点成带状区域分布在某一直线附近,(4)中点分布在某一曲线附近,故(2)(3)(4)存在相关关系.
故答案为:(2)(3)(4)
【变式3】(23-24高二上·上海·课后作业)《国家学生体质健康标准(2014年修订)》中,体能监测包含身高、体重、肺活量、50米跑、坐位体前屈、引体向上(女:仰卧起坐)、立定跳远、1000米跑(女:800米跑),据此得到的每项指标都可以按照相应的单项指标评分表进行测量和计分,分别得到相应的数据.
(1)这些数据中的任意两组是否都可以作为成对数据进行相关分析?
(2)依据你的经验,哪两组数据的相关程度可能最高?哪两组数据的相关程度可能最低?如何通过统计方法检验你的判断?
【答案】(1)都可以
(2)肺活量和50米跑相关程度最高,身高和肺活量相关程度最低(答案不唯一)
【知识点】判断两个变量是否有相关关系
【分析】(1)根据相关关系的定义判断即可;
(2)根据经验找到合理的案例,结合统计学知识分析即可.
【详解】(1)都可以,因为每项指标都可以按照相应的单项指标评分表进行测量和计分,
且任意两项指标之间存在一定的关系,但又没有确切到可由其中的一个精确地决定另一个的程度,
所以任意两组数据均可以作为成对数据进行相关分析,只是有些数据相关性较弱..
(2)依据经验可知肺活量和米跑相关程度最高,身高和肺活量相关程度最低,(答案不唯一),
通过测量出米成绩与肺活量的数据,作出散点图,即可判断.
通过测量出身高与肺活量的数据,作出散点图,即可判断.
题型03 判断正、负相关
【例3】(23-24高二下·吉林长春·期中)已知变量x与y的回归直线方程为,变量y与z负相关,则( )
A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关
【答案】D
【知识点】判断正、负相关
【分析】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断x与z负相关.
【详解】根据回归方程可知变量x与y正相关,又变量y与z负相关,
由正相关、负相关的定义可知,x与z负相关.
故选:D
【变式1】(24-25高二上·广西桂林·期末)根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【答案】D
【知识点】判断正、负相关
【分析】由正、负相关的概念得解.
【详解】由所给数据可知,当增大时减小,和呈负相关;当增大时和增大,和呈正相关.
故选:D
【变式2】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【答案】C
【知识点】判断正、负相关
【分析】根据相关关系的概念逐项判定,即可求解.
【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
【变式3】(22-23高二上·四川成都·期末)以下两个变量成负相关的是 .
①学生的学籍号与学生的数学成绩;
②坚持每天吃早餐的人数与患胃病的人数;
③气温与冷饮销售量;
④电瓶车的重量和行驶每千米的耗电量.
【答案】②
【知识点】判断正、负相关
【分析】根据相关关系的知识确定正确答案.
【详解】①无相关关系;②负相关;③④正相关.
故答案为:②
题型04 相关系数的意义及辨析
【例4】(23-24高二下·山西大同·期中)对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
【答案】D
【知识点】相关系数的意义及辨析、判断正、负相关
【分析】根据相关系数的符号的正负决定两个变量的正相关、负相关,以及相关系数绝对值越大,两个变量的线性相关性越强,进而可得出结论.
【详解】由线性相关系数知与正相关,
由线性相关系数知与负相关,
又,所以变量与变量的线性相关性比变量与变量的线性相关性更强.
故选:D.
【变式1】(23-24高二下·山西长治·期中)根据变量的观测数据,绘制成散点图1;根据变量的观测数据,绘制成散点图2.若用线性回归进行分析,设表示变量的样本相关系数,表示变量的样本相关系数,则( )
A. B.
C. D.
【答案】A
【知识点】相关系数的意义及辨析
【分析】根据散点图,结合相关系数知识即可得出答案.
【详解】由图可得随增大而减小,随增大而减小,
所以与增呈负相关关系,与呈负相关关系,故,
又由图可知图1相关性更强,故更接近,
所以.
故选:A.
【变式2】(23-24高二下·江西赣州·期中)甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
【答案】乙
【知识点】相关系数的意义及辨析
【分析】根据相关系数的定义判断即可.
【详解】因为,所以这四人中,乙研究的两个随机变量的线性相关程度最高,
故答案为:乙.
【变式3】(23-24高二下·新疆巴音郭楞·期末)为了比较甲、乙、丙三组数据的线性相关性强弱,某同学分别计算了甲、乙、丙三组数据的线性相关系数,求得数值依次为0.57,-0.93,0.89,则这三组数据中,线性相关性最强的是 组数据.
【答案】乙
【知识点】相关系数的意义及辨析
【分析】根据相关系数的含义,其绝对值越接近1,线性相关性越强即可得到答案.
【详解】根据题意,因为线性相关系数的绝对值越大,线性相关性越强,
由甲、乙、丙三组数据的线性相关系数分别为0.57,-0.93,0.89,
所以
故乙组数据的线性相关性最强,
故答案为:乙
题型05 相关系数的计算
【例5】(23-24高二上·辽宁·期末)在一组样本数据、、、、、、、不全相等)的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C. D.
【答案】C
【知识点】相关系数的计算
【分析】根据相关系数的与线性相关关系可得解.
【详解】因为所有的样本点都在直线上,所以相关系数满足.
又因为,所以,所以.
故选:C.
【变式1】(23-24高二下·贵州黔西·期末)已知变量和变量的3对随机观测数据为,则这组样本数据的样本相关系数为( )
A. B. C.1 D.
【答案】C
【知识点】相关系数的意义及辨析、相关系数的计算、判断正、负相关
【分析】作出散点图,结合图形即可得解.
【详解】作出散点图,如图:
观察图形,得点在一条直线上,
所以这组样本数据的样本相关系数为1.
故选:C
【变式2】(22-23高二下·江苏扬州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量,,其中,,并计算得,,,,,由选择性必修二教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数 .
【答案】
【知识点】相关系数的计算
【分析】根据题干中相关系数的定义进行计算.
【详解】由题干数据,,可得,
根据夹角公式的定义,,而,
根据
,
于是.
故答案为:
【变式3】(22-23高二下·湖北孝感·期末)(1)若成对样本数据都落在直线上,求样本相关系数.
(2)现随机抽取10家航空公司,对其最近一年的航班正点率和乘客投诉次数进行调查.所得数据如下表所示:
航空公司编号
1
2
3
4
5
6
7
8
9
10
航班正点率
80
78
81
84
86
90
91
93
88
89
乘客投诉次数
26
33
24
20
18
10
9
7
12
11
根据表格的数据,试问乘客投诉次数与航班正点率之间是否呈现线性相关关系?它们之间的相关程度如何?
参考数据:相关系数,当时两个变量之间具有很强的线性相关关系.取.
【答案】(1)-1 ;(2)是;具有很强的线性相关关系 .
【知识点】相关系数的计算、相关系数的意义及辨析
【分析】(1)利用相关系数与线性相关程度的关系得结果;
(2)计算相关系数,由数据判断结论.
【详解】(1)因为样本数据都落在直线上,且直线的斜率为负数,所以相关系数为-1.
(2),
,
,
,
,
,
所以,
所以乘客投诉次数与航班正点率之间负相关,具有很强的线性相关关系
题型06 残差的计算
【例6】(24-25高二上·吉林·期末)某地根据以往数据,得到当地16岁男性的身高与其父亲身高的经验回归方程为,当地人小王16岁时身高167cm,他父亲身高180cm,则小王身高的残差为( )
A. B. C.2cm D.3cm
【答案】A
【知识点】残差的计算
【分析】首先根据回归方程求小王身高的预测值,再计算残差.
【详解】当时,得,则(),
所以小王身高的残差为.
故选:A
【变式1】(23-24高二下·广西玉林·期末)已知线性回归方程相应于点的残差为,则的值为( )
A. B.3 C. D.2.9
【答案】B
【知识点】残差的计算
【分析】根据线性回归方程估计,再根据残差定义列方程可得答案.
【详解】由线性回归方程,取,得,
又相应于点的残差为,,
解得.
故选:B.
【变式2】(22-23高二下·山西太原·期中)已知回归方程,而试验中的一组数据是,,,则其残差平方和是 .
【答案】0.03
【知识点】残差的计算
【分析】利用残差的定义求解,求得的残差平方后求和即可.
【详解】残差,当时,,当时,,当时,,
残差平方和为
故答案为:0.03.
【变式3】(21-22高二下·山东青岛·期中)高中女学生的身高预报体重的回归方程是(其中,的单位分别是cm,kg),则此方程在样本点处的残差是 .
【答案】1.5
【知识点】残差的计算
【分析】利用回归直线方程,求出的估计值,然后求解残差的绝对值.
【详解】由样本数据得到,女大学生的身高预报体重的回归方程是,
当时,,
此方程在样本处残差为:.
故答案为:1.5.
题型07 相关指数的计算及分析
【例7】(23-24高二下·河北石家庄·期末)已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
【答案】D
【知识点】相关指数的计算及分析
【分析】由恒为0,可得,再结合公式可求.
【详解】由恒为0,知恒成立,即恒成立,
故.
故选:D.
【变式1】(21-22高二下·山西大同·期中)营养学家对某地区居民的身高与营养摄入量的几组数据进行研究后发现两个变量存在相关关系,该营养学家按照不同的曲线拟合与之间的回归方程,并算出相关指数如下表所示:
拟合曲线
直线
指数曲线
抛物线
三次曲线
与的回归方程
相关指数
0.893
0.986
0.931
0.312
则这组数据模型的回归方程的最好选择应是( )
A. B.
C. D.
【答案】B
【知识点】相关指数的计算及分析
【分析】根据相关指数的性质,相关指数的值越大,模型的拟合效果越好,即可得出答案.
【详解】相关指数的值越大,说明模型的拟合效果越好,观察可知,指数曲线的最大,故回归方程的最好选择应是,
故选:B.
【变式2】(20-21高二下·广西玉林·期中)为了对,两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关指数为,乙模型的相关指数为,则 (填“甲”或“乙”)模型拟合的效果更好.
【答案】甲
【知识点】相关指数的计算及分析
【分析】直接由相关指数与拟合效果的关系得到结果.
【详解】相关指数越接近1,表明拟合效果越好,
,
甲模型拟合效果更好.
故答案为:甲.
【变式3】(23-24高二下·安徽蚌埠·期中)若一组观测值之间满足,且恒为0,则为 ;(参考公式:)
【答案】1
【知识点】相关指数的计算及分析
【分析】由恒为0,可得,再结合公式可求.
【详解】由恒为0,知恒成立,即恒成立,故.
故答案为:1
题型08 非线性回归
【例8】(22-23高二下·陕西西安·期末)如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
【答案】B
【知识点】非线性回归
【分析】由选项的图象特征即可得到答案.
【详解】选项A,对应的“直线型”的拟合函数,散点图中的点应在某直线附近,故A错误;
选项B,根据散点图可以看出散点大致分布在一条“指数型”函数曲线附近,
则的图象可以如图所示,故B正确;
选项C,对应的“幂函数型”的拟合函数,则其对应图象应上凸下凹,故C错误;
选项D,对应的“对数型”的拟合函数,则其对应图象应上凸下凹,故D错误.
故选:B.
【变式1】(20-21高二下·河南·阶段练习)用模型拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则 .
【答案】
【知识点】非线性回归
【分析】将回归方程化为,再与模型比较系数,即可得到答案.
【详解】由,得,,所以.
故答案为:
【变式2】(22-23高二下·江苏·课后作业)为了研究某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
求y关于x的回归方程.
参考数据:ln 6≈1.79,ln 12≈2.48,ln 25≈3.22,ln 49≈3.89,ln 95≈4.55,ln 190≈5.25.
【答案】.
【知识点】非线性回归
【分析】先作出散点图,由散点图得到样本点分布在一条指数型曲线y=cebx的周围,即ln y=bx+ln c,再令z=ln y,a=ln c,得到z=bx+a求解.
【详解】解:作出散点图如图(1)所示.
由散点图看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,
因此可以用线性回归方程来拟合.
由表中数据得,
,
,,
所以线性回归方程为.
因此细菌的繁殖个数对天数的非线性回归方程为
【变式3】(22-23高二下·山西·期中)某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:
选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:
31.5
15
15
49.5
(1)求出与的回归方程;
(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.
【答案】(1)
(2)498万元
【知识点】非线性回归
【分析】(1)由表中数据代入最小二乘法公式计算即可;
(2)按照(1)中所求回归方程,结合参考数据,代入计算即可.
【详解】(1)因为
由表中数据得,
所以,所以,
所以年该材料费用和年利润额的回归方程为;
(2)令,得,
所以(十万),
故下一年应至少投入498万元该材料费用
【夯实基础】
一、单选题
1.(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
【答案】B
【分析】根据相关关系的定义判断.
【详解】对于A:产品的样本与生产数量是相关关系,故A正确;
对于B:设球的半径为,球的表面积为、体积为,
则,所以,而,
所以球的表面积与体积是一种函数关系,故B错误;
对于C:家庭的支出与收入是相关关系,故C正确;
对于D:人的年龄与体重是相关关系,故D正确.
故选:B
2.(23-24高二下·山东聊城·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图越宽 B.残差平方和越小
C.决定系数越小 D.相关系数越大
【答案】B
【分析】根据残差、决定系数、相关系数的概念判断即可.
【详解】残差图越宽,模型的拟合效果越差,故A错误;
残差平方和越小,模型的拟合效果越好,故B正确;
决定系数越小,说明模型的拟合效果越差,故C错误;
相关系数越大,两个变量的线性相关性越强,故D错误;
故选:B
3.(24-25高二下·全国·课后作业)某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数分别为,则拟合效果最好的模型是( )
A.甲 B.乙 C.丙 D.丁
【答案】D
【分析】线性回归模型中越接近1,效果越好,即可得出答案.
【详解】越大,则回归模型的拟合效果越好,
因为,所以拟合效果最好的是模型丁.
故选:D.
4.(23-24高二下·黑龙江哈尔滨·期末)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【分析】根据已知条件,结合变量间的相关关系,结合图象分析判断即可.
【详解】由散点图可知,去掉点后,与的线性相关加强,且为负相关,
所以B正确,A错误;
由于与的线性相关加强,所以残差平方和变小,所以C错误,
由于与的线性相关加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数r变小,所以D错误.
故选:B.
二、多选题
5.(23-24高二下·福建泉州·期末)某同学根据变量x与y的六组数据(,2,…,6)绘制了如下散点图,并选择一元线性回归模型进行拟合,若去掉B点,则下列说法正确的是( )
A.残差平方和变小 B.相关系数r越趋于1
C.决定系数变大 D.y与x线性相关程度变强
【答案】ACD
【分析】从图中可以看出B点较其他点,偏离直线远,所以去掉B点后,回归效果更好,再结合残差的定义、以及相关系数和决定系数的性质判断.
【详解】从图中可以看出B点较其他点,偏离直线远,所以去掉B点后,回归效果更好,
A.残差平方和变小,拟合效果越好,故正确,符合题意;
B.相关系数|r|越趋于1,拟合的回归方程越优,
所以去掉B点后,相关系数r的绝对值越趋于1,故B错误,不符合题意;
C.决定系数R2越接近于1,拟合的回归方程越优,
即去掉B点后,变大,越趋于1,故正确,符合题意;
D.解释变量x与预报变量y相关性增强,故正确,符合题意.
故选:ACD.
6.(23-24高二下·吉林松原·期末)下列结论不正确的是( )
A.两个变量的线性相关系数决定两变量相关程度的强弱,且相关系数越小,相关性越强
B.若两个变量的线性相关系数,则与 之间不具有线性相关性
C.在一组样本数据中,先剔除部分异常数据,再根据最小二乘法求得线性回归方程为,这样相关系数变大
D.在一组样本数据的散点图中,若所有样本点都在直线 上,则这组样本数据的样本相关系数为
【答案】ACD
【分析】根据相关系数的概念和性质逐项分析判断.
【详解】对于选项A:越大,与之间的线性相关性越强,所以A错误;
对于选项B:若,则样本数据不具有线性相关性,所以B正确;
对于选项C:去掉异常数据,则相关性变强,变大,所以C错误;
对于选项D:若所有样本点都在直线上,
则这组样本数据完全相关,且正相关,
所以这组样本数据的样本相关系数为1,所以D错误.
故选:ACD.
三、填空题
7.(23-24高二下·广西玉林·期末)甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
【答案】甲
【分析】根据相关系数的性质即可求解.
【详解】因为,所以这四人中,甲研究的两个随机变量的线性相关程度最高.
故答案为:甲.
8.(22-23高二下·河南省直辖县级单位·期末)在线性回归分析中,常用作为衡量模拟效果的一个指标.
下面关于的说法:①越大,说明模型拟合的效果越好;
②越接近1,说明回归的效果越好;
③越接近1,说明回归的效果越差.请你写出所有正确说法的序号 .
【答案】①②
【分析】由线性回归中的意义即可得解.
【详解】在表达式中,与经验回归方程无关,残差平方后与经验回归方程有关,因此越大,表示残差平方后越小,即模型的拟合效果越好;越小,表示残差平方和越大,即模型的拟合效果越差,可知①②正确③错误.
故答案为:①②
四、解答题
9.(22-23高二下·西藏拉萨·期末)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某省为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得:,,,,.
(1)求这20个县年垃圾产生总量的平均值;
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合.(当时,与的相关关系较强,否则相关关系较弱.)
参考公式:相关系数.
【答案】(1)
(2)理由见解析
【分析】(1)根据直接计算可得;
(2)根据所给数据计算出相关系数,即可说明.
【详解】(1)依题意这个县年垃圾产生总量的平均值为(吨).
(2)依题意,
因为与的相关系数接近,所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合.
10.(23-24高二上·上海·课后作业)若已知下列各组数据,它们是否可以看作成对数据?是否可以进行相关分析?判断并简要说明理由.
(1)校学生的身高与校学生的体重;
(2)人体内的脂肪含量与体重;
(3)某班学生的物理成绩与数学成绩.
【答案】(1)不可以,不可以,理由见解析
(2)可以,可以,理由见解析
(3)可以,可以,理由见解析
【分析】根据两个变量是否具有相关关系,可得答案.
【详解】(1)校学生的身高与校学生的体重毫无关系,因此不能看成成对数据,不能进行相关分析.
(2)人体内的脂肪含量与体重具有相关关系,因此可以看作成对数据,可以进行相关分析.
(3)某班学生的物理成绩与数学成绩具有相关关系,因此可以看作成对数据,可以进行相关分析.
11.(21-22高二·全国·课后作业)下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车辆数是否有线性相关关系.
机动车辆数x/千台
95
110
112
120
129
135
150
180
交通事故数y/千件
6.2
7.5
7.7
8.5
8.7
9.8
10.2
13.0
【答案】有.
【分析】利用相关系数的公式结合数据即得.
【详解】将数据列成下表:
i
1
95
6.2
9025
38.44
589.0
2
110
7.5
12100
56.25
825.0
3
112
7.7
12544
59.29
862.4
4
120
8.5
14400
72.25
1020.0
5
129
8.7
16641
75.69
1122.3
6
135
9.8
18225
96.04
1323.0
7
150
10.2
22500
104.04
1530.0
8
180
13.0
32400
169.00
2340.0
1031
71.6
137835
671.00
9611.7
由此可得,,进而求得
,
因为,
所以可以得出:交通事故数y与机动车辆数x有较强的线性相关关系.
12.(22-23高二下·江苏·课后作业)某网站统计了某网红螺蛳粉在2020年7月至11月的总销售量y(单位:万),得到以下数据:
月份x
7
8
9
10
11
销售量y
10
12
11
12
20
根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?
(参考公式:相关系数.参考数据:)
【答案】可用线性回归模型拟合y与x的关系.
【分析】计算相关系数得出y与x的线性相关关系强弱并得出结果.
【详解】由已知得:,,,,
∴.
因为,说明y与x的线性相关关系很强,可用线性回归模型拟合y与x的关系.
13.(22-23高二下·江苏·课后作业)某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x(单位:元)与日销售量y(单位:件)之间有如下关系:
x
5
6
7
8
y
10
8
7
3
试计算x,y之间的相关系数.
参考数据:,,
【答案】
【分析】利用相关系数的公式求解.
【详解】因为,,,
所以相关系数.
【能力提升】
一、单选题
1.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
2.(20-21高二下·福建福州·期中)下列说法正确的是( )
A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法
B.线性回归方程对应的直线至少经过其样本数据点中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,相关指数为0.95的模型比相关指数为0.78的模型拟合的效果差
【答案】C
【分析】首先对每个选项一一进行分析,需要明确独立性检验是检验两个分类变量是否有关系的一种统计方法,回归直线可能不过任何一个样本数据点,残差图中,残差点分布的带状区域的宽度越狭窄,其模拟精度越高,相关指数越大,拟合效果越好的结论,就可以正确选出结果.
【详解】对于A,统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法,所以A错;
对于B,线性回归方程对应的直线可能不过任何一个样本数据点,所以B错误;
对于C,残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,所以C正确;
对于D,回归分析中,相关指数为的模型比相关指数为的模型拟合的效果好,所以D错误.
故选:C
3.(21-22高二下·江苏·阶段练习)要判断成对数据的线性相关程度的强弱,可以通过比较它们的样本相关系数r的大小,以下是四组数据的相关系数的值,则线性相关最强的是( )
A. B.
C. D.
【答案】A
【分析】利用相关系数的含义,判断每个选项里的相关系数的绝对值的大小即可.
【详解】当时,表明两个变量正相关;当时,表明两个变量负相关; ,且 越接近于1,相关程度越大;越接近于0,相关程度越小,
故 ,因此线性相关最强的是A,
故选:A
4.(21-22高二下·吉林白城·阶段练习)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:根据表中的数据可得回归直线方程,,以下说法正确的是( )
广告支出费用
2.2
2.6
4.0
5.3
5.9
销售量
3.8
5.4
7.0
11.6
122
A.销售量的多少有96%是由广告支出费用引起的
B.销售量的多少有4%是由广告支出费用引起的
C.第三个样本点对应的残差,回归模型的拟合效果一般
D.第三个样本点对应的残差,回归模型的拟合效果较好
【答案】A
【分析】根据已知条件结合残差和相关系数的定义可得答案.
【详解】因为表示解释变量对于预报变量的贡献率,,所以销售量的多少有96%由广告支出费用引起的,故A正确,B错误;
当时,第三个样本点对应的残差为,又,
故拟合效果较好,故CD错误.
故选:A.
二、多选题
5.(23-24高二下·陕西宝鸡·期末)关于成对数据统计分析的下列结论中,正确的是( )
A.若两个变量与的相关系数,则这两个变量负相关
B.若两个变量与的相关系数越大,则这两个变量的线性相关程度越强
C.若两个变量与的相关系数,则这两个变量不具有相关关系
D.对于两个变量与的经验回归方程,若决定系数越大,则经验回归方程的拟合效果越好
【答案】AD
【分析】根据相关系数的意义判断ABC三个选项,根据决定系数的意义判断D选项.
【详解】由相关系数的意义知“若两个变量与的相关系数,则这两个变量负相关”A正确;
“两个变量与的相关系数的绝对值越大,则这两个变量的线性相关程度越强”,B错误;
两个变量与的相关系数只能说明两个变量没有线性相关关系,不能排除它们之间有其他相关关系,C错误;
由决定系数的意义知“对于两个变量与的经验回归方程,若决定系数越大,则经验回归方程的拟合效果越好”,D正确;
故选:AD.
6.(23-24高二下·贵州·期末)下列说法正确的是( )
A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数
B.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好
C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则,的值分别是4和0.3
D.某人在10次答题中,答对题数为,,则答对7题的概率最大.
【答案】BD
【分析】根据频率分布直方图的特征判断样本的分布特征,即可判断A,根据残差的意义,即可判断B,根据转化关系,即可判断C,比较概率,列出不等式,即可判断D.
【详解】A. 对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数小于中位数,故A错误;
B. 在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故B正确;,
C.由,设,则,即,
所以,,即,故C错误;
D.由题意可知,,
设答对道题的概率最大,所以
,解得:,
得,所以答对7题的概率最大,故D正确.
故选:BD
三、填空题
7.(22-23高二下·陕西西安·阶段练习)已知某个样本点中的变量x、y线性相关,相关系数,则在以为坐标原点的坐标系下的散点图中,大多数的点都落在第 象限.
【答案】二、四
【分析】利用相关系数公式,结合已知有大多数点与异号,即可得答案.
【详解】由,则,
所以,大多数点与异号,又为坐标原点,
故大多数的点都落在第二、四象限.
故答案为:二、四
8.(21-22高二·全国·课后作业)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .
(精确到0.01,参考公式和数据:,,,)
【答案】0.99
【分析】分别求出,,,再利用参考公式和数据计算即可.
【详解】由题意,知,
,
.
所以.
所以y与x的相关系数近似为0.99.
故答案为:0.99.
四、解答题
9.(21-22高二·湖南·课后作业)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如下表:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
计算这10个学生的两次数学考试成绩的样本相关系数r,并判断两者是否具有线性相关关系.
【答案】两次数学考试成绩具有线性相关关系
【分析】根据相关系数的公式算出答案即可.
【详解】
=1202+1082+…+992+1082=116 584,
=842+642+…+572+712=47 384,
=120×84+108×64+…+108×71=73 796,
∴样本相关系数为
∴这10个学生的两次数学考试成绩具有线性相关关系.
10.(21-22高二·全国·课后作业)我国西北某地区开展改造沙漠的巨大工程,该地区于2017年投入沙漠治理经费2亿元,从2018年到2020年连续3年每年增加沙漠治理经费1亿元,近4年投入的沙漠治理经费x(亿元)和沙漠治理面积y(万亩)的相关数据如下表所示:
年份
2017
2018
2019
2020
x
2
3
4
5
y
26
39
49
54
通过绘制散点图看出,y与x之间具有明显的相关性,请用相关系数加以说明.(结果保留3位小数)
【答案】答案见解析
【分析】利用相关数据代入求出相关系数,即可得加以说明.
【详解】根据题意,得
,.
∴,
,
,
∴,
由于y与x的相关系数近似为0.998,说明y与x的线性相关程度相当高.
11.(24-25高二下·全国·课后作业)已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
【答案】0.999,具有很强的相关性.
【分析】根据给定条件,求出相关数据,再代入公式计算即可得答案.
【详解】依题意,,
,
,
,
因此,
所以这组成对的样本数据相关系数为0.999,具有很强的相关性.
12.(22-23高二下·吉林长春·阶段练习)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次和销售量的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
其中令,.
根据(1)的判断结果及表中数据,求(单位:千件)关于(单位:十万次)的回归方程,并预测当观看人次为万人时的销售量;
参考数据和公式:,
附:对于一组数据、、、,其回归线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适合;
(2),预测当观看人次为万人时的销售量约为件.
【分析】(1)根据散点图中散点的分布情况可选择合适的回归模型;
(2)令,则,将表格中的数据代入最小二乘法公式,可求得、的值,进而可得出关于的回归方程,将代入回归方程可得出销售量.
【详解】(1)解:由散点图可知,散点分布在一条对数型曲线附近,所以选择回归方程更适合.
(2)解:令,则,
因为,,
所以,
又因为,,所以,
所以与的线性回归方程为,
故关于的回归方程为.
令,代入回归方程可得(千件)
所以预测观看人次为万人时的销售量约为件.
13.(24-25高二上·辽宁·期末)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$
第09讲 成对数据的统计相关性
目录
题型归纳 1
题型01 相关关系与函数关系的概念及辨析 2
题型02 判断两个变量是否有相关关系 3
题型03 判断正、负相关 4
题型04 相关系数的意义及辨析 5
题型05 相关系数的计算 6
题型06 残差的计算 8
题型07 相关指数的计算及分析 8
题型08 非线性回归 9
分层练习 11
夯实基础 11
能力提升 16
知识点01变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
知识点02散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
知识点03线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
题型01相关关系与函数关系的概念及辨析
【例1】(21-22高二下·福建宁德·期末)对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.0.87
【变式1】(21-22高二下·四川成都·期中)下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.儿童的年龄与体重 D.物体的体积和质量
【变式2】(22-23高二下·上海金山·期末)如果两种证券在一段时间内收益数据的相关系数为正数,那么表明( )
A.两种证券的收益之间存在完全同向的联动关系,即同时涨或同时跌
B.两种证券的收益之间存在完全反向的联动关系,即涨或跌是相反的
C.两种证券的收益有同向变动的倾向
D.两种证券的收益有反向变动的倾向
【变式3】(2021高二·全国·专题练习)下列两个变量之间的关系是函数关系的是 .
①角度和它的余弦值;②正方形的边长和面积
③正n边形的边数和内角和;④人的年龄和身高
题型02 判断两个变量是否有相关关系
【例2】(23-24高二下·辽宁·期中)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量 B.举重运动员所能举起的最大重量与他的体重
C.某正方形的边长与此正方形的面积 D.人的身高与体重
【变式1】(23-24高二下·山东潍坊·期中)下列两个变量之间的关系是相关关系的是( )
A.正方形的边长与对角线长 B.球的体积与表面积
C.一个人的身高与学习成绩 D.平均学习时间与学习成绩
【变式2】(21-22高二下·吉林长春·期中)在以下4幅散点图中,图 中的y和x之间存在相关关系(将正确答案的序号填在横线上)
【变式3】(23-24高二上·上海·课后作业)《国家学生体质健康标准(2014年修订)》中,体能监测包含身高、体重、肺活量、50米跑、坐位体前屈、引体向上(女:仰卧起坐)、立定跳远、1000米跑(女:800米跑),据此得到的每项指标都可以按照相应的单项指标评分表进行测量和计分,分别得到相应的数据.
(1)这些数据中的任意两组是否都可以作为成对数据进行相关分析?
(2)依据你的经验,哪两组数据的相关程度可能最高?哪两组数据的相关程度可能最低?如何通过统计方法检验你的判断?
题型03 判断正、负相关
【例3】(23-24高二下·吉林长春·期中)已知变量x与y的回归直线方程为,变量y与z负相关,则( )
A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关
【变式1】(24-25高二上·广西桂林·期末)根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【变式2】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量 D.人的年龄与视力
【变式3】(22-23高二上·四川成都·期末)以下两个变量成负相关的是 .
①学生的学籍号与学生的数学成绩;
②坚持每天吃早餐的人数与患胃病的人数;
③气温与冷饮销售量;
④电瓶车的重量和行驶每千米的耗电量.
题型04 相关系数的意义及辨析
【例4】(23-24高二下·山西大同·期中)对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
C.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强
D.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强
【变式1】(23-24高二下·山西长治·期中)根据变量的观测数据,绘制成散点图1;根据变量的观测数据,绘制成散点图2.若用线性回归进行分析,设表示变量的样本相关系数,表示变量的样本相关系数,则( )
A. B.
C. D.
【变式2】(23-24高二下·江西赣州·期中)甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
【变式3】(23-24高二下·新疆巴音郭楞·期末)为了比较甲、乙、丙三组数据的线性相关性强弱,某同学分别计算了甲、乙、丙三组数据的线性相关系数,求得数值依次为0.57,-0.93,0.89,则这三组数据中,线性相关性最强的是 组数据.
题型05 相关系数的计算
【例5】(23-24高二上·辽宁·期末)在一组样本数据、、、、、、、不全相等)的散点图中,若所有的样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C. D.
【变式1】(23-24高二下·贵州黔西·期末)已知变量和变量的3对随机观测数据为,则这组样本数据的样本相关系数为( )
A. B. C.1 D.
【变式2】(22-23高二下·江苏扬州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中简单随机抽样的方法抽取20个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量,,其中,,并计算得,,,,,由选择性必修二教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数 .
【变式3】(22-23高二下·湖北孝感·期末)(1)若成对样本数据都落在直线上,求样本相关系数.
(2)现随机抽取10家航空公司,对其最近一年的航班正点率和乘客投诉次数进行调查.所得数据如下表所示:
航空公司编号
1
2
3
4
5
6
7
8
9
10
航班正点率
80
78
81
84
86
90
91
93
88
89
乘客投诉次数
26
33
24
20
18
10
9
7
12
11
根据表格的数据,试问乘客投诉次数与航班正点率之间是否呈现线性相关关系?它们之间的相关程度如何?
参考数据:相关系数,当时两个变量之间具有很强的线性相关关系.取.
题型06 残差的计算
【例6】(24-25高二上·吉林·期末)某地根据以往数据,得到当地16岁男性的身高与其父亲身高的经验回归方程为,当地人小王16岁时身高167cm,他父亲身高180cm,则小王身高的残差为( )
A. B. C.2cm D.3cm
【变式1】(23-24高二下·广西玉林·期末)已知线性回归方程相应于点的残差为,则的值为( )
A. B.3 C. D.2.9
【变式2】(22-23高二下·山西太原·期中)已知回归方程,而试验中的一组数据是,,,则其残差平方和是 .
【变式3】(21-22高二下·山东青岛·期中)高中女学生的身高预报体重的回归方程是(其中,的单位分别是cm,kg),则此方程在样本点处的残差是 .
题型07 相关指数的计算及分析
【例7】(23-24高二下·河北石家庄·期末)已知一组观测值,,…,满足,若恒为0,则( )
A.0 B.0.5 C.0.9 D.1
【变式1】(21-22高二下·山西大同·期中)营养学家对某地区居民的身高与营养摄入量的几组数据进行研究后发现两个变量存在相关关系,该营养学家按照不同的曲线拟合与之间的回归方程,并算出相关指数如下表所示:
拟合曲线
直线
指数曲线
抛物线
三次曲线
与的回归方程
相关指数
0.893
0.986
0.931
0.312
则这组数据模型的回归方程的最好选择应是( )
A. B.
C. D.
【变式2】(20-21高二下·广西玉林·期中)为了对,两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关指数为,乙模型的相关指数为,则 (填“甲”或“乙”)模型拟合的效果更好.
【变式3】(23-24高二下·安徽蚌埠·期中)若一组观测值之间满足,且恒为0,则为 ;(参考公式:)
题型08 非线性回归
【例8】(22-23高二下·陕西西安·期末)如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
【变式1】(20-21高二下·河南·阶段练习)用模型拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则 .
【变式2】(22-23高二下·江苏·课后作业)为了研究某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
求y关于x的回归方程.
参考数据:ln 6≈1.79,ln 12≈2.48,ln 25≈3.22,ln 49≈3.89,ln 95≈4.55,ln 190≈5.25.
【变式3】(22-23高二下·山西·期中)某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:
选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:
31.5
15
15
49.5
(1)求出与的回归方程;
(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.
【夯实基础】
一、单选题
1.(23-24高二下·甘肃兰州·期末)下列各关系不属于相关关系的是( )
A.产品的样本与生产数量 B.球的表面积与体积
C.家庭的支出与收入 D.人的年龄与体重
2.(23-24高二下·山东聊城·期末)在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图越宽 B.残差平方和越小
C.决定系数越小 D.相关系数越大
3.(24-25高二下·全国·课后作业)某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数分别为,则拟合效果最好的模型是( )
A.甲 B.乙 C.丙 D.丁
4.(23-24高二下·黑龙江哈尔滨·期末)已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
二、多选题
5.(23-24高二下·福建泉州·期末)某同学根据变量x与y的六组数据(,2,…,6)绘制了如下散点图,并选择一元线性回归模型进行拟合,若去掉B点,则下列说法正确的是( )
A.残差平方和变小 B.相关系数r越趋于1
C.决定系数变大 D.y与x线性相关程度变强
6.(23-24高二下·吉林松原·期末)下列结论不正确的是( )
A.两个变量的线性相关系数决定两变量相关程度的强弱,且相关系数越小,相关性越强
B.若两个变量的线性相关系数,则与 之间不具有线性相关性
C.在一组样本数据中,先剔除部分异常数据,再根据最小二乘法求得线性回归方程为,这样相关系数变大
D.在一组样本数据的散点图中,若所有样本点都在直线 上,则这组样本数据的样本相关系数为
三、填空题
7.(23-24高二下·广西玉林·期末)甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
8.(22-23高二下·河南省直辖县级单位·期末)在线性回归分析中,常用作为衡量模拟效果的一个指标.
下面关于的说法:①越大,说明模型拟合的效果越好;
②越接近1,说明回归的效果越好;
③越接近1,说明回归的效果越差.请你写出所有正确说法的序号 .
四、解答题
9.(22-23高二下·西藏拉萨·期末)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某省为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得:,,,,.
(1)求这20个县年垃圾产生总量的平均值;
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合.(当时,与的相关关系较强,否则相关关系较弱.)
参考公式:相关系数.
10.(23-24高二上·上海·课后作业)若已知下列各组数据,它们是否可以看作成对数据?是否可以进行相关分析?判断并简要说明理由.
(1)校学生的身高与校学生的体重;
(2)人体内的脂肪含量与体重;
(3)某班学生的物理成绩与数学成绩.
11.(21-22高二·全国·课后作业)下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车辆数是否有线性相关关系.
机动车辆数x/千台
95
110
112
120
129
135
150
180
交通事故数y/千件
6.2
7.5
7.7
8.5
8.7
9.8
10.2
13.0
12.(22-23高二下·江苏·课后作业)某网站统计了某网红螺蛳粉在2020年7月至11月的总销售量y(单位:万),得到以下数据:
月份x
7
8
9
10
11
销售量y
10
12
11
12
20
根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?
(参考公式:相关系数.参考数据:)
13.(22-23高二下·江苏·课后作业)某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x(单位:元)与日销售量y(单位:件)之间有如下关系:
x
5
6
7
8
y
10
8
7
3
试计算x,y之间的相关系数.
参考数据:,,
【能力提升】
一、单选题
1.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
2.(20-21高二下·福建福州·期中)下列说法正确的是( )
A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法
B.线性回归方程对应的直线至少经过其样本数据点中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,相关指数为0.95的模型比相关指数为0.78的模型拟合的效果差
3.(21-22高二下·江苏·阶段练习)要判断成对数据的线性相关程度的强弱,可以通过比较它们的样本相关系数r的大小,以下是四组数据的相关系数的值,则线性相关最强的是( )
A. B.
C. D.
4.(21-22高二下·吉林白城·阶段练习)某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:根据表中的数据可得回归直线方程,,以下说法正确的是( )
广告支出费用
2.2
2.6
4.0
5.3
5.9
销售量
3.8
5.4
7.0
11.6
122
A.销售量的多少有96%是由广告支出费用引起的
B.销售量的多少有4%是由广告支出费用引起的
C.第三个样本点对应的残差,回归模型的拟合效果一般
D.第三个样本点对应的残差,回归模型的拟合效果较好
二、多选题
5.(23-24高二下·陕西宝鸡·期末)关于成对数据统计分析的下列结论中,正确的是( )
A.若两个变量与的相关系数,则这两个变量负相关
B.若两个变量与的相关系数越大,则这两个变量的线性相关程度越强
C.若两个变量与的相关系数,则这两个变量不具有相关关系
D.对于两个变量与的经验回归方程,若决定系数越大,则经验回归方程的拟合效果越好
6.(23-24高二下·贵州·期末)下列说法正确的是( )
A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数
B.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好
C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则,的值分别是4和0.3
D.某人在10次答题中,答对题数为,,则答对7题的概率最大.
三、填空题
7.(22-23高二下·陕西西安·阶段练习)已知某个样本点中的变量x、y线性相关,相关系数,则在以为坐标原点的坐标系下的散点图中,大多数的点都落在第 象限.
8.(21-22高二·全国·课后作业)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 .
(精确到0.01,参考公式和数据:,,,)
四、解答题
9.(21-22高二·湖南·课后作业)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如下表:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
计算这10个学生的两次数学考试成绩的样本相关系数r,并判断两者是否具有线性相关关系.
10.(21-22高二·全国·课后作业)我国西北某地区开展改造沙漠的巨大工程,该地区于2017年投入沙漠治理经费2亿元,从2018年到2020年连续3年每年增加沙漠治理经费1亿元,近4年投入的沙漠治理经费x(亿元)和沙漠治理面积y(万亩)的相关数据如下表所示:
年份
2017
2018
2019
2020
x
2
3
4
5
y
26
39
49
54
通过绘制散点图看出,y与x之间具有明显的相关性,请用相关系数加以说明.(结果保留3位小数)
11.(24-25高二下·全国·课后作业)已知变量和变量的4对随机观测数据为,,计算成对样本数据的样本相关系数,并推断它们的相关程度(保留3位小数).
附:.
12.(22-23高二下·吉林长春·阶段练习)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次和销售量的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
其中令,.
根据(1)的判断结果及表中数据,求(单位:千件)关于(单位:十万次)的回归方程,并预测当观看人次为万人时的销售量;
参考数据和公式:,
附:对于一组数据、、、,其回归线的斜率和截距的最小二乘估计分别为:,.
13.(24-25高二上·辽宁·期末)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
原创精品资源学科网独家享有版权,侵权必究!学科网(北京)股份有限公司6
学科网(北京)股份有限公司
$$