内容正文:
第09讲 成对数据的统计相关性
知识清单
知识点01:相关关系
知识点02:样本相关系数r
知识点03:经验回归方程
题型讲解
(举三反三)
题型1:相关关系与函数关系的概念及辨析
题型2:判断两个变量是否有相关关系
题型3:判断正、负相关
题型4:相关系数的意义及辨析
题型5:相关系数的计算
强化训练
一、单选题(8)
二、多选题(3)
三、填空题(3)
四、解答题(5)
知识点1.相关关系
1 相关关系
(1).相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
(2).相关关系的分类
按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(3)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
2、 相关关系的直观表示
散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
知识点2.样本相关系数r
(1)
(2)样本相关系数的数字特征:
当时,称成对样本数据正相关;
当时,称成对样本数据负相关;
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.
知识点3.经验回归方程
1. 一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
2.经验回归方程:
(1)相关概念:
经验回归直线:经验回归方程也称经验回归函数或经验回归公式,图形称为经验回归直线.
最小二乘估计:求经验回归方程的方法叫做最小二乘法,求得的叫做的最小二乘估计.
残差:对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)
(3)决定系数:
越大,表示残差平方和越小,即模型的拟合效果越好;
越小,表示残差平方和越大,即模型的拟合效果越差;
方法技巧 经验回归方程的求法及应用
在散点图中,样本点大致分布在一条直线附近,利用公式求出, 可写出经验回归方程,利用经验回归模型进行研究,可近似地利用经验回归方程来预测 。
方法技巧 一元线性回归模型拟合问题的求解策略
在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.|r|越大,R2就越大,用模型拟合数据的效果就越好.
题型1:判断两个变量是否有相关关系
【例1-1】(25-26高二下·全国·单元测试)下列变量之间的关系不是相关关系的是( )
A.已知二次函数,其中是常数,取为自变量,因变量为这个函数对应方程的判别式
B.光照时间和果树产量
C.降雪量和交通事故的发生率
D.土地施用肥料量和粮食产量
【答案】A
【分析】根据相关关系的定义可得.
【详解】选项B,C,D中的两个变量都具有相关性,且都是一种不确定的关系,是相关关系.
而A中判别式和变量是一种确定的表达式,是一种函数关系,即一种确定的关系,所以不是相关关系.
故选:A
【例1-2】(2025高二·全国·专题练习)在下列各图中,两个变量具有相关关系的是( ).
A.①② B.①③ C.② D.②③
【答案】D
【分析】根据函数关系和相关关系的概念,结合图象作出判断.
【详解】对于①,所有的点都在曲线上,具有函数关系;
对于②,所有的散点分布在一条直线附近,具有相关关系:
对于③,所有的散点分布在一条曲线附近,具有相关关系;
对于④,所有的散点杂乱无章,不具有相关关系,
故选:D.
【例1-3】(2025高二·全国·专题练习)某研究调查了6个城市的医院病床数量与年人均看病次数,数据如下:
城市
病床数量 (万张)
年人均看病次数
A
0.8
3.1
B
1.2
4.0
C
1.5
4.6
D
2.0
5.9
E
2.5
6.7
F
3.0
7.8
散点图显示与呈明显正相关.学生丙认为:“增加医院病床数量会使人们更容易生病,导致看病次数增加.”问:学生丙说的对吗?
【答案】学生丙说的不对
【分析】1.混淆相关与因果:学生丙将统计关联直接解释为“病床增加→生病增多”的因果关系;
2.忽略混杂变量:实际存在隐藏变量——城市人口基数和老龄人口比例:人口多的城市需更多病床,同时因基数大导致人均看病次数统计值更高;老龄化严重的城市对病床需求高,且老年人看病频率天然更高;
3.因果倒置风险:病床增加常是应对医疗需求的结果(需求高→增病床),而非致病原因.
【详解】由题意,
对于相关性:表格中病床数量增加时,人均看病次数同步上升,存在统计正相关.
对于因果性:若人为在偏远小镇新建医院(增加),但人口少且年轻,不会显著上升. 若某城市突发传染病(剧增),病床数不会自动增加.
结论:病床数量与人均看病次数的正相关反映共同影响因素的存在(人口结构、医疗需求),但不能证明“病床增加导致生病”,决策者若据此减少病床,反而会加剧医疗资源短缺,故学生丙说的不对.
【变式1-1】(24-25高二下·辽宁·期中)为了了解性别与视力之间的关系,一个调查机构得到列联表如图,则当取下面何值时,性别与视力无关的可能性最大( )
男
女
近视
240
200
不近视
50
A.40 B.60 C.100 D.240
【答案】B
【分析】根据相关性的概念求解即可.
【详解】根据相关性的概念可知当,即近视与不近视的男女比例相同时,性别与视力无关的可能性最大,
解得,
故选:B
【变式1-2】(25-26高二下·全国·课堂例题)下列两个变量之间,是相关关系的有( )
①角度与它的余弦值;②人的体重与视力;③正n边形的边数和它的内角度数之和;④圆心角的大小与所对的圆弧长;⑤光照时间和果树亩产量;⑥收入水平与购买能力;⑦正方体的棱长与体积.
A.①④⑥ B.②⑤⑥⑦ C.⑤⑥ D.③⑤⑦
【答案】C
【分析】根据相关关系的概念判断即可.
【详解】①③④⑦是函数关系;②没有关系;⑤⑥是相关关系.
故选:C
【变式1-3】(2025高二·全国·专题练习)某食品科学家小张想研究一种新型固体饮料粉末()在冷水中的溶解速率(溶解所需时间,单位:秒)与水初始温度(,单位:)之间的关系.他初步进行了少量实验,收集了以下5组数据:
水温 ()
溶解时间 ()
5
120
10
90
15
105
20
60
25
110
小张观察这5个数据点,发现水温升高时,溶解时间并没有呈现出明显一致的下降趋势(例如时时间较长,时时间也较长).他初步判断:“水温对这款饮料的溶解速率似乎没有显著影响,或者影响规律不明显.”
问题:
(1)小张基于这5组数据得出的初步结论可能有什么问题?结合数据具体解释.
(2)为什么仅凭这5个数据点就下结论是危险的?请解释样本量不足在评估变量关系时可能导致什么错误.
(3)为了更准确地了解水温与溶解时间的真实关系,小张应该怎么做?如果他增加了样本量(例如再做20次严格控制的实验),可能会观察到什么不同的现象?
【答案】(1)样本数量太少、信息量有限、包含异常数据、随机波动掩盖趋势;
(2)易受极端值/异常值影响、统计功效低、无法捕捉潜在规律;
(3)显著增加样本量(),最好增至20-30组,可能观察到的现象见解析.
【分析】(1)从样本量少、信息量有限、包含异常数据、正确且有用信息未显示被掩盖等出发分析即可;
(2)根据变量的相关关系方面定义、数据特点、统计影响等方面出发分析即可;
(3)从统计的科学性角度出发即可得解.
【详解】由题意,
(1)样本量太小():只有5个数据点,信息量极其有限,数据点包含“异常”或“扰动”:
时溶解时间105秒偏长;时溶解时间110秒偏长.
随机波动掩盖趋势:在水温升高溶解时间减少存在的情况下,小样本中少数几个受干扰的数据点所产生
的随机波动,完全可能暂时掩盖掉潜在的真实趋势.
当前5个点看起来就是“高高低低”,没有明确规律.
(2)易受极端值/异常值影响:小样本中,任何一个异常数据点,如受干扰的和数据,
对整体数据模式的权重都会被不成比例地放大,扭曲对整体关系的判断.
统计功效低:即使存在真实的、中等强度的负相关,水温越高,时间越短,
小样本也可能因为随机波动而无法可靠地检测到这种关系,导致第二类错误,
误以为没有关系而实际上有关系.结果不稳定且不可靠,小样本得出的结论对特定抽到的几个数据点非常敏感,
再抽另外5个点,可能看起来像正相关、负相关或无相关.结论缺乏代表性和可重复性.
无法捕捉潜在规律:变量间的关系,尤其是非线性关系需要足够的数据点才能清晰地显现其模式,
5个点太少,难以区分是随机噪声还是真实模式.
(3)显著增加样本量():小张应该进行更多次、严格控制实验条件的实验,
例如:确保搅拌均匀、粉末完全分散、记录准确.
建议至少增加到个或更多不同水温下的数据点.
可能观察到的现象:随着样本量增加,实验过程中偶然的干扰,如一次搅拌失误、一次结块,对整体数据模式的影响会被稀释.
题型2: 判断正、负相关
【例2-1】(24-25高二下·重庆·期末)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有负相关关系的是( )
A. B. C. D.
【答案】C
【分析】根据散点图的特征得到答案.
【详解】A中的散点杂乱无章,无规律可言,看不出两个变量有什么相关性;
B中呈正相关关系,C中两个变量具有负相关关系;
D中两个变量具有相关性,但不是正相关,也不是负相关.
故选:C.
【例2-2】(24-25高二上·广西桂林·期末)根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【答案】D
【分析】由正、负相关的概念得解.
【详解】由所给数据可知,当增大时减小,和呈负相关;当增大时和增大,和呈正相关.
故选:D
【例2-3】(25-26高二上·安徽淮北·期末)已知一组变量线性相关,样本相关系数,现将坐标原点平移到点,则大多数点应该落在第____象限.
【答案】二、四
【分析】根据负相关的散点图特点,判断结果即可.
【详解】因为,所以变量负相关,则在以为坐标原点的坐标系下的散点图,大多数点应该落在第二、四象限.
【变式2-1】(24-25高二下·全国·课后作业)已知变量和满足关系,变量与负相关,下列结论正确的是( )
A.与正相关,与负相关 B.与正相关,与正相关
C.与负相关,与负相关 D.与负相关,与正相关
【答案】A
【分析】根据线性方程易知变量与正相关,再结合已知判断变量与的相关性,即可得答案.
【详解】因为变量和满足关系,且,所以变量与正相关.
又变量与负相关,所以变量与负相关.
故选:A
【变式2-2】(24-25高二下·全国·随堂练习)给定与的一组成对数据,求得相关系数,则( )
A.与不相关 B.与正相关
C.与负相关 D.以上都不对
【答案】C
【分析】由相关系数的概念判断即可.
【详解】因为,所以与负相关.
故选:C.
【变式2-3】(24-25高二下·湖北黄冈·月考)对相关系数,给出下列结论:①越大,线性相关程度越强;②若所有样本点都在直线上,则;③越大,线性相关程度越弱,越接近,线性相关程度越强;④且越接近,线性相关程度越强,越接近,线性相关程度越弱,
其中说法正确的是______填序号
【答案】④
【分析】根据相关系数的性质依次判断即可.
【详解】相关系数可以衡量两个变量之间的相关关系的强弱时,
而,当越接近于,表示两个变量的线性相关性越强,
越接近于时,表示两个变量之间几乎不存在相关关系,
故①③错误,④正确;
若所有样本点都在直线上,则,故②错误.
故综上所述,④正确.
故答案为:④.
题型3: 相关系数的意义及辨析
【例3-1】(25-26高二上·陕西渭南·期末)已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【答案】D
【分析】根据相关系数的性质即可得到答案.
【详解】相关系数的绝对值越大,则其相关程度越强,
又因为,所以线性相关程度最强的是丁组.
故选:D.
【例3-2】(24-25高二下·湖北孝感·期末)已知两个变量x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
【答案】A
【分析】由回归方程可得,设去掉数据后,新数据为,
注意到,结合相关系数计算公式可得答案.
【详解】由题可得原数据,因过点,
则,从而.
设去掉数据后,新数据为,则
,又因,,
则,,从而.
故选:A
【例3-3】下面是随机抽取的9名15岁男生的身高、体重列表:
编号
1
2
3
4
5
6
7
8
9
身高/cm
165
157
155
175
168
157
178
160
163
体重/kg
52
44
45
55
54
47
62
50
53
判断所给的两个变量之间是否存在相关关系,如果存在,指出是正相关还是负相关.
【答案】详见解析
【分析】根据表中数据判断.
【详解】解:由表中数据可知:人的体重随着身高的增高而增长,
所以人的身高和体重之间存在相关关系,且是正相关.
【变式3-1】(25-26高二下·吉林长春·月考)对四组数据进行统计,获得如图所示的散点图,其中相关系数最小的是( )
A. B. C. D.
【答案】B
【详解】图①,数据点呈正线性相关,且相关性很强,所以接近1;
图②,数据点呈负线性相关,且相关性很强,所以接近;
图③,数据点呈正线性相关,且相关性比图①弱,所以;
图④,数据点呈负线性相关,且相关性比图②弱,所以;
所以.
【变式3-2】(24-25高二下·山东青岛·月考)为了研究变量与的线性相关关系,收集了5组样本数据(如下表),若去掉样本点后,则样本的相关系数( )
1
2
3
4
5
0.5
0.8
1
1.2
1.5
A.变大 B.变小 C.不变 D.不能确定
【答案】C
【分析】根据相关系数公式计算得解.
【详解】因为相关系数为,,,
5组样本数据的,,相关系数为:
,
去掉样本中心点后,四组数据的,,相关系数为:,
所以相关系数r不变.
故选:C
【变式3-3】(24-25高二下·全国·课后作业)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示:
城市编号
1
2
3
4
5
指标
4
6
2
8
5
指标
4
4
3
5
4
指标
3
6
2
5
4
利用向量夹角来分析与之间及与之间的相关关系.
【答案】答案见解析
【分析】根据坐标运算得出向量,再结合夹角公式求出夹角余弦,进而判断相关性解正负相关.
【详解】由已知得,,
,
将题表中x,y,z的相关数据分别减去,
记,,
.
则,,.
于是
,
,
所以与,与正相关,又,则与之间的相关性比与之间的相关性强.
题型4: 相关系数的计算
【例4-1】(25-26高二上·全国·单元测试)最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
【答案】A
【分析】根据相关系数公式计算即可求解.
【详解】,,
,
.
故选:A.
【例4-2】(24-25高三上·宁夏银川·期末)已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为_________.
【答案】
【分析】利用相关系数公式可看成两个维向量的夹角公式,从而把相关系数问题转化为向量夹角问题,即可求解.
【详解】设,,,
则有,,,
由相关系数公式可知,
设与夹角为,与夹角为,
由和的样本相关系数为,所以,和的样本相关系数为,所以,
由这两个夹角为锐角,所以,所以与的夹角可能为,,
则与的夹角余弦最大值为.
故答案为:
【例4-3】(2024高三·全国·专题练习)某高中数学兴趣小组,在学习了统计案例后,准备利用所学知识研究成年男性的臂长(cm)与身高(cm)之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159
165
170
176
180
67
71
73
76
78
根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
【答案】说明见解析
【分析】利用相关系数的计算公式即可得解;
【详解】由表中的数据和附注中的参考数据得
,,,,
,
,,
∴.
因为与的相关系数近似为0.997,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.
【变式4-1】(24-25高二下·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【分析】根据散点图及相关性判断AB,由相关系数性质判断CD.
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;
对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
对C,图1正相关,图2负相关,所以C不正确;
对D,因为图2相关程度更强,所以D正确.
故选:C.
【变式4-2】(24-25高二下·江西抚州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
【答案】0.96/
【分析】计算出,故.
【详解】,故,
,
.
故答案为:0.96
【变式4-3】(24-25高二下·江西景德镇·期中)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表:
5
6
7
8
9
0.55
0.50
0.60
0.65
0.70
(1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强);
(2)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为,假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值.
参考公式:相关系数
【答案】(1),可以认为该性能指数与孩子的喜爱程度相关性很强
(2)
【分析】(1)利用公式求出即可判断;
(2)根据题意表示出小李挑战成功的概率为,再结合基本不等式及二次函数的知识求解即可.
【详解】(1)由表知,,
,
,
,
,
则,
由此可以认为该性能指数与孩子的喜爱程度相关性很强.
(2)当小李答对题数为3时,概率为:
,
当小李答对题数为4时,概率为:,
所以小李挑战成功的概率为:,
由,,,
则,当且仅当时等号成立,
所以,由二次函数的知识可知,
当时,小李挑战成功的概率最大,最大为.
一、单选题
1.(25-26高二上·全国·单元测试)下列变量之间的关系不是相关关系的是( )
A.光照时间和果树亩产量 B.降雪量和交通事故发生率
C.每亩田施肥量和粮食亩产量 D.圆的面积和半径
【答案】D
【分析】利用两变量相关关系的意义判断即可.
【详解】列表解析
选项
是否是相关关系
原因
A
是
果树亩产量与光照时间有关,是相关关系.
B
是
降雪量的大小对交通事故发生率有影响,是相关关系.
C
是
粮食亩产量与每亩田施肥量有关,是相关关系.
D
否
圆的面积S和半径r是函数关系.
故选:D.
2.(24-25高二下·河南信阳·期末)根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
【答案】A
【分析】由散点可得变量和变量负相关,且相关性较强,可得结论.
【详解】由散点图知,变量和变量负相关,且相关性较强,所以样本相关系数.
故选:A.
3.(2025高二·全国·专题练习)下列关系中,是因果关系的为( )
A.学生的学习态度与学习成绩之间的关系
B.教师的教学水平与学生的学习成绩之间的关系
C.学生的身高与学生的学习成绩之间的关系
D.家庭的经济条件与学生的学习成绩之间的关系
【答案】B
【分析】由两个变量的相关关系与因果关系的定义,结合各项描述理解判断.
【详解】A:学生的学习态度与学习成绩之间不是因果关系,但具有相关性,不是因果关系;
B:教师的教学水平与学生的学习成绩之间的关系是因果关系;
C,D:学生的身高与学生的学习成绩、家庭的经济条件与学生的学习成绩都不是因果关系.
故选:B
4.(24-25高二下·河南周口·期末)已知A,B,C,D四组成对样本数据对应的样本相关系数分别为,,,,则线性相关程度最强的是( )
A.A组 B.B组 C.C组 D.D组
【答案】A
【分析】比较相关系数绝对值的大小,即可得结论.
【详解】由题设,则线性相关程度最强的是组.
故选:A
5.(25-26高二上·广西桂林·期末)已知为随机变量X和Y的样本相关系数,为随机变量M和N的样本相关系数,则下列说法正确的是( )
A.若,则X和Y负相关
B.若,则M和N线性不相关
C.若,,则X和Y的线性相关程度比M和N的线性相关程度强
D.若越接近1,则M和N的线性相关程度越弱
【答案】B
【分析】利用,且越接近1,线性相关程度越强,越接近0,线性相关程度越弱,结合每个选项的条件逐项判断即可.
【详解】A,若,则X和Y正相关,故A错误;
B,若,则M和N线性不相关,故B正确;
C,若,,则,
所以X和Y的线性相关程度比M和N的线性相关程度弱,故C错误;
D,若越接近1,则M和N的线性相关程度越强,故D错误.
故选:B
6.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【分析】根据已知计算相关系数,再根据相关系数的值判断线性相关程度.
【详解】由题可得,,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
7.(25-26高三·全国·一轮复习)为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
【答案】A
【分析】先计算线性相关系数 ,再通过 ()的绝对值判断相关强度( 越接近1,线性相关程度越强).
【详解】解析:由题可知样本量 ,所以:
=15,
=108.6,
又因为:,,,,≈15.8,
所以:
=,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
答案:A.
8.(24-25高二下·湖北·月考)已知变量x和变量y的3对随机观测数据,,,则该组样本数据点的相关系数( )
(参考公式:)
A. B. C. D.1
【答案】B
【分析】由题目数据结合参考公式可得答案.
【详解】由题可得,,
则.
,
,
则.
故选:B
二、多选题
9.(24-25高二下·河北保定·期末)对于x,y两个变量,有四组样本数据,分别算出它们的线性相关系数r(如下):,0.72,,0.85,则正相关的变量x,y所对应的线性相关系数是( )
A. B.0.72 C. D.0.85
【答案】BD
【分析】根据线性相关性的特征和线性相关系数的概念意义可解.
【详解】若线性相关系数是正数,则变量x,y正相关.
所以0.72,0.85符合题意,
故选:
10.(25-26高二上·全国·单元测试)某统计部门对四组成对样本数据进行统计分析后,获得如图所示的散点图,关于样本相关系数的比较,其中正确的是( )
A. B. C. D.
【答案】CD
【分析】利用散点图去比较相关系数的大小即可.
【详解】由题中散点图可知(1)(3)为正相关,(2)(4)为负相关,
故,,,.
又因为(1)与(2)中散点图更接近于一条直线,故,,
所以.
故选:CD.
11.(24-25高二下·福建·期中)某同学将收集到的六对数据制作成散点图如下,得到其经验回归方程为 计算其相关系数为r₁,决定系数为R².经过分析确定点F为“离群点”,把它去掉后,再利用剩下的五对数据计算得到经验回归方程为 相关系数为r₂,决定系数为.下列结论正确的是( )
A. B.
C. D.
【答案】AC
【分析】根据散点图对相关性的强弱的影响即可判断四个选项.
【详解】由图可知两变量呈现正相关,故,去掉“离群点”后,相关性更强,所以 故 故A 正确,B不正确.
根据图象当去掉F点后,相关性更强,点A,B,C,D,E会更靠近直线,直线的倾斜程度会略向x轴偏向,故斜率会变小,
因此可判断,故C正确,D错误.
故选: AC.
三、填空题
12.(24-25高二下·广东深圳·期中)已知变量和的经验回归直线方程为,则时的观测值为6.5,此时残差为______(注:观测值减去预测值称为残差).
【答案】
【分析】求出预测值,再利用残差的定义求出残差.
【详解】当时,,
所以时的残差为.
故答案为:
13.(24-25高二下·贵州黔西·期末)在线性回归分析模型中,变量与相对应的四组数据为,,,,表示解释变量对于预报变量变化的贡献率,则_____.
附:,,.
【答案】1
【分析】根据给定条件,求出回归直线方程,进而求出.
【详解】依题意,
,,
则,,
因此关于的线性回归方程为,
当时,,残差;当时,,残差;
当时,,残差;当时,,残差,
因此,所以.
故答案为:1
14.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【答案】
【分析】根据表中数据求出,进而得出的值,代入公式计算即可得出答案.
【详解】由已知可得,,
,
则,
,
所以,.
故答案为:.
四、解答题
15.(23-24高二下·陕西·月考)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量.随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.03
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
附:相关系数,.
【答案】(1);
(2)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
【详解】(1)样本中10棵这种树木的根部横截面积的平均值,
样本中10棵这种树木的材积量的平均值,
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为.
(2)(2)
,
则.
16.(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
【答案】(1),
(2),可以用线性回归模型拟合与之间的关系,理由见解析
【分析】(1)根据已知数据直接求平均值即可;
(2)分别求出和,再代入公式即可求解,再根据相关系数的绝对值大于0.75且非常接近1判断即可.
【详解】(1)由题可知,;
(2)因为,
,
故;
因为与的相关系数的绝对值近似为,大于且非常接近,
说明与的线性相关性很强,从而可以用线性回归模型拟合与之间的关系.
17.(24-25高二·全国·课堂例题)某食品加工厂新研制出一种袋装食品(规格:500g/袋),下面是近六个月每袋的出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号
1
2
3
4
5
6
每袋的出厂价格(元)
10.5
10.9
11
11.5
12
12.5
月销售量(万袋)
2.2
2
1.9
1.8
1.5
1.4
(1)计算该食品加工厂这六个月内这种袋装食品平均每袋的出厂价格、平均月销售量和平均月销售收入;
(2)求每袋的出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若,则认为相关性很强,试判断该食品加工厂研制的袋装食品每袋的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数.
【答案】(1)11.4(元),(万元).
(2)-0.98
(3)该食品加工厂研制的袋装食品每袋的出厂价格与月销售量有较强的相关性.
【分析】(1)由表格中的数据求相应的平均值;
(2)利用样本相关系数公式计算;
(3)由样本相关系数的值判断相关性的强弱.
【详解】(1)由题表得,该食品加工厂这六个月内这种袋装食品平均每袋的出厂价格为(元).
平均月销售量为(万袋),
平均月销售收入为(万元).
(2)由题表及(1)得,
所以样本相关系数
.
(3)因为,所以该食品加工厂研制的袋装食品每袋的出厂价格与月销售量有较强的相关性.
18.(23-24高二下·吉林长春·期末)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中15个区域进行编号,统计抽取到的每个区域的某种水源指标和区域内该植物分布的数量,得到数组.已知,.
(1)求样本的样本相关系数;
(2)假设该植物的寿命为随机变量X(X可取任意正整数),研究人员统计大量数据后发现,对于任意的,寿命为的样本在寿命超过k的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均为0.1,这种现象被称为“几何分布的无记忆性”.用含k的式子表示,并求的值.
附:样本相关系数;当k足够大时,.
【答案】(1)0.8
(2),,
【分析】(1)利用相关系公式计算即可;
(2)由题意可得,进而可得,可得,最后再代入即可.
【详解】(1)由,,.
得样本相关系数.
(2)依题意,,
又,
则,
当时,把换成,
则,
两式相减得,
即,
又,
所以对任意都成立,
从而是首项为0.1,公比为0.9的等比数列,
所以,.
19.(24-25高二下·全国·课后作业)2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示.
万件
2.08
2.12
2.19
2.28
2.36
2.48
2.59
2.68
2.80
2.87
万元
42.5
43.7
44.0
45.5
46.4
47.5
49.2
50.3
51.4
52.6
(1)计算的值;
(2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度.
【答案】(1)
(2),与之间具有很强的相关性
【分析】(1)由平均数的计算公式得到和;
(2)由相关系数的计算公式计算,再由判断相关性.
【详解】(1)依题意,
(2)依题意,,,,
所以,
因为,所以与之间具有很强的相关性.
1
学科网(北京)股份有限公司
$
第09讲 成对数据的统计相关性
知识清单
知识点01:相关关系
知识点02:样本相关系数r
知识点03:经验回归方程
题型讲解
(举三反三)
题型1:相关关系与函数关系的概念及辨析
题型2:判断两个变量是否有相关关系
题型3:判断正、负相关
题型4:相关系数的意义及辨析
题型5:相关系数的计算
强化训练
一、单选题(8)
二、多选题(3)
三、填空题(3)
四、解答题(5)
知识点1.相关关系
1 相关关系
(1).相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
(2).相关关系的分类
按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(3)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
2、 相关关系的直观表示
散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
知识点2.样本相关系数r
(1)
(2)样本相关系数的数字特征:
当时,称成对样本数据正相关;
当时,称成对样本数据负相关;
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.
知识点3.经验回归方程
1. 一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
2.经验回归方程:
(1)相关概念:
经验回归直线:经验回归方程也称经验回归函数或经验回归公式,图形称为经验回归直线.
最小二乘估计:求经验回归方程的方法叫做最小二乘法,求得的叫做的最小二乘估计.
残差:对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)
(3)决定系数:
越大,表示残差平方和越小,即模型的拟合效果越好;
越小,表示残差平方和越大,即模型的拟合效果越差;
方法技巧 经验回归方程的求法及应用
在散点图中,样本点大致分布在一条直线附近,利用公式求出, 可写出经验回归方程,利用经验回归模型进行研究,可近似地利用经验回归方程来预测 。
方法技巧 一元线性回归模型拟合问题的求解策略
在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.|r|越大,R2就越大,用模型拟合数据的效果就越好.
题型1:判断两个变量是否有相关关系
【例1-1】(25-26高二下·全国·单元测试)下列变量之间的关系不是相关关系的是( )
A.已知二次函数,其中是常数,取为自变量,因变量为这个函数对应方程的判别式
B.光照时间和果树产量
C.降雪量和交通事故的发生率
D.土地施用肥料量和粮食产量
【例1-2】(2025高二·全国·专题练习)在下列各图中,两个变量具有相关关系的是( ).
A.①② B.①③ C.② D.②③
【例1-3】(2025高二·全国·专题练习)某研究调查了6个城市的医院病床数量与年人均看病次数,数据如下:
城市
病床数量 (万张)
年人均看病次数
A
0.8
3.1
B
1.2
4.0
C
1.5
4.6
D
2.0
5.9
E
2.5
6.7
F
3.0
7.8
散点图显示与呈明显正相关.学生丙认为:“增加医院病床数量会使人们更容易生病,导致看病次数增加.”问:学生丙说的对吗?
【变式1-1】(24-25高二下·辽宁·期中)为了了解性别与视力之间的关系,一个调查机构得到列联表如图,则当取下面何值时,性别与视力无关的可能性最大( )
男
女
近视
240
200
不近视
50
A.40 B.60 C.100 D.240
【变式1-2】(25-26高二下·全国·课堂例题)下列两个变量之间,是相关关系的有( )
①角度与它的余弦值;②人的体重与视力;③正n边形的边数和它的内角度数之和;④圆心角的大小与所对的圆弧长;⑤光照时间和果树亩产量;⑥收入水平与购买能力;⑦正方体的棱长与体积.
A.①④⑥ B.②⑤⑥⑦ C.⑤⑥ D.③⑤⑦
【变式1-3】(2025高二·全国·专题练习)某食品科学家小张想研究一种新型固体饮料粉末()在冷水中的溶解速率(溶解所需时间,单位:秒)与水初始温度(,单位:)之间的关系.他初步进行了少量实验,收集了以下5组数据:
水温 ()
溶解时间 ()
5
120
10
90
15
105
20
60
25
110
小张观察这5个数据点,发现水温升高时,溶解时间并没有呈现出明显一致的下降趋势(例如时时间较长,时时间也较长).他初步判断:“水温对这款饮料的溶解速率似乎没有显著影响,或者影响规律不明显.”
问题:
(1)小张基于这5组数据得出的初步结论可能有什么问题?结合数据具体解释.
(2)为什么仅凭这5个数据点就下结论是危险的?请解释样本量不足在评估变量关系时可能导致什么错误.
(3)为了更准确地了解水温与溶解时间的真实关系,小张应该怎么做?如果他增加了样本量(例如再做20次严格控制的实验),可能会观察到什么不同的现象?
题型2: 判断正、负相关
【例2-1】(24-25高二下·重庆·期末)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有负相关关系的是( )
A. B. C. D.
【例2-2】(24-25高二上·广西桂林·期末)根据如下两组数据,下列说法正确的是( )
5
6
7
8
9
10
Y
5
4.8
3.5
4
3
2
2
4
6
7
9
3
4
9
7
11
A.和呈正相关,和呈正相关
B.和呈负相关,和呈负相关
C.和呈正相关,和呈负相关
D.和呈负相关,和呈正相关
【例2-3】(25-26高二上·安徽淮北·期末)已知一组变量线性相关,样本相关系数,现将坐标原点平移到点,则大多数点应该落在第____象限.
【变式2-1】(24-25高二下·全国·课后作业)已知变量和满足关系,变量与负相关,下列结论正确的是( )
A.与正相关,与负相关 B.与正相关,与正相关
C.与负相关,与负相关 D.与负相关,与正相关
【变式2-2】(24-25高二下·全国·随堂练习)给定与的一组成对数据,求得相关系数,则( )
A.与不相关 B.与正相关
C.与负相关 D.以上都不对
【变式2-3】(24-25高二下·湖北黄冈·月考)对相关系数,给出下列结论:①越大,线性相关程度越强;②若所有样本点都在直线上,则;③越大,线性相关程度越弱,越接近,线性相关程度越强;④且越接近,线性相关程度越强,越接近,线性相关程度越弱,
其中说法正确的是______填序号
题型3: 相关系数的意义及辨析
【例3-1】(25-26高二上·陕西渭南·期末)已知甲,乙,丙,丁四组成对样本数据对应的线性相关系数分别为,则线性相关程度最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【例3-2】(24-25高二下·湖北孝感·期末)已知两个变量x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:
x
1
2
3
4
5
y
m
若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则( )
A. B.
C. D.的大小关系无法确定
【例3-3】下面是随机抽取的9名15岁男生的身高、体重列表:
编号
1
2
3
4
5
6
7
8
9
身高/cm
165
157
155
175
168
157
178
160
163
体重/kg
52
44
45
55
54
47
62
50
53
判断所给的两个变量之间是否存在相关关系,如果存在,指出是正相关还是负相关.
【变式3-1】(25-26高二下·吉林长春·月考)对四组数据进行统计,获得如图所示的散点图,其中相关系数最小的是( )
A. B. C. D.
【变式3-2】(24-25高二下·山东青岛·月考)为了研究变量与的线性相关关系,收集了5组样本数据(如下表),若去掉样本点后,则样本的相关系数( )
1
2
3
4
5
0.5
0.8
1
1.2
1.5
A.变大 B.变小 C.不变 D.不能确定
【变式3-3】(24-25高二下·全国·课后作业)近年来,“共享汽车”在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市交通管理带来了一些困难.为了解“共享汽车”在省的发展情况,省某调查机构从该省随机抽取了5个城市,分别收集和分析了“共享汽车”的,,三项指标数据,数据如表所示:
城市编号
1
2
3
4
5
指标
4
6
2
8
5
指标
4
4
3
5
4
指标
3
6
2
5
4
利用向量夹角来分析与之间及与之间的相关关系.
题型4: 相关系数的计算
【例4-1】(25-26高二上·全国·单元测试)最近7年,我国生活垃圾无害处理量如下表:
年份序号
1
2
3
4
5
6
7
处理量
通过计算得,,,,则样本相关系数( )
A.0.99 B.0.95 C.0.9 D.0.85
【例4-2】(24-25高三上·宁夏银川·期末)已知高中学生的数学成绩,物理成绩,化学成绩两两成正相关关系,随机抽取10名同学,数学成绩和物理成绩的样本线性相关系数为,物理成绩与化学成绩的样本线性相关系数为,求的样本线性相关系数的最大值为_________.
【例4-3】(2024高三·全国·专题练习)某高中数学兴趣小组,在学习了统计案例后,准备利用所学知识研究成年男性的臂长(cm)与身高(cm)之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
159
165
170
176
180
67
71
73
76
78
根据上表数据,可用线性回归模型拟合与的关系,请用相关系数加以说明;
【变式4-1】(24-25高二下·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【变式4-2】(24-25高二下·江西抚州·期末)现调查某地区某种野生动物的数量,将该地区分成面积相近的100个地块,从这些地块中用简单随机抽样的方法抽取10个作为样本,调查得到样本数据,其中分别表示第个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,分别表示这10个样本的植物覆盖面积和这种野生动物的数量的平均值,构造向量,并计算得,由选择性必修第一册教材中的知识,我们知道对数据的相关系数,则上述数据的相关系数______.
【变式4-3】(24-25高二下·江西景德镇·期中)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人,它结合了人工智能、语音识别、互动娱乐和教育等内容,且云端内容可以持续更新,旨在通过趣味性和互动性帮助孩子学习和发展.萌宠机器人一投放市场就受到了很多家长欢迎,为了更好的服务广大家长,该公司对萌宠机器人的某个性能指数与孩子的喜爱程度进行统计调查,得到如下数据表:
5
6
7
8
9
0.55
0.50
0.60
0.65
0.70
(1)请根据上表提供的数据,通过计算变量的相关系数,回答是否可以认为该性能指数与孩子的喜爱程度相关性很强(当时,与相关性很强);
(2)该公司科技人员小李想挑战萌宠机器人,他和机器人比赛答题,他们每人答4个题,若小李答对题数不小于3,则挑战成功.已知小李答对前两道题的概率均为,答对后两道题的概率均为,假设每次答题相互独立,且互不影响,当时,求小李挑战成功的概率的最大值.
参考公式:相关系数
一、单选题
1.(25-26高二上·全国·单元测试)下列变量之间的关系不是相关关系的是( )
A.光照时间和果树亩产量 B.降雪量和交通事故发生率
C.每亩田施肥量和粮食亩产量 D.圆的面积和半径
2.(24-25高二下·河南信阳·期末)根据下图的散点图,变量和变量的样本相关系数的值为( )
A. B. C.0.34 D.0.88
3.(2025高二·全国·专题练习)下列关系中,是因果关系的为( )
A.学生的学习态度与学习成绩之间的关系
B.教师的教学水平与学生的学习成绩之间的关系
C.学生的身高与学生的学习成绩之间的关系
D.家庭的经济条件与学生的学习成绩之间的关系
4.(24-25高二下·河南周口·期末)已知A,B,C,D四组成对样本数据对应的样本相关系数分别为,,,,则线性相关程度最强的是( )
A.A组 B.B组 C.C组 D.D组
5.(25-26高二上·广西桂林·期末)已知为随机变量X和Y的样本相关系数,为随机变量M和N的样本相关系数,则下列说法正确的是( )
A.若,则X和Y负相关
B.若,则M和N线性不相关
C.若,,则X和Y的线性相关程度比M和N的线性相关程度强
D.若越接近1,则M和N的线性相关程度越弱
6.(24-25高二下·全国·课后作业)为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度( )
5
10
15
20
25
103
105
110
111
114
(参考数据:,,)
A.很强 B.很弱 C.无相关 D.不确定
7.(25-26高三·全国·一轮复习)为考察两个变量x,y的相关性,搜集数据如表,则两个变量的线性相关程度( )
x
5
10
15
20
25
y
103
105
110
111
114
(参考数据:,,,≈15.8,≈9.01)
A.很强 B.很弱
C.无相关 D.不确定
8.(24-25高二下·湖北·月考)已知变量x和变量y的3对随机观测数据,,,则该组样本数据点的相关系数( )
(参考公式:)
A. B. C. D.1
二、多选题
9.(24-25高二下·河北保定·期末)对于x,y两个变量,有四组样本数据,分别算出它们的线性相关系数r(如下):,0.72,,0.85,则正相关的变量x,y所对应的线性相关系数是( )
A. B.0.72 C. D.0.85
10.(25-26高二上·全国·单元测试)某统计部门对四组成对样本数据进行统计分析后,获得如图所示的散点图,关于样本相关系数的比较,其中正确的是( )
A. B. C. D.
11.(24-25高二下·福建·期中)某同学将收集到的六对数据制作成散点图如下,得到其经验回归方程为 计算其相关系数为r₁,决定系数为R².经过分析确定点F为“离群点”,把它去掉后,再利用剩下的五对数据计算得到经验回归方程为 相关系数为r₂,决定系数为.下列结论正确的是( )
A. B.
C. D.
三、填空题
12.(24-25高二下·广东深圳·期中)已知变量和的经验回归直线方程为,则时的观测值为6.5,此时残差为______(注:观测值减去预测值称为残差).
13.(24-25高二下·贵州黔西·期末)在线性回归分析模型中,变量与相对应的四组数据为,,,,表示解释变量对于预报变量变化的贡献率,则_____.
附:,,.
14.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份
7
8
9
10
11
12
销售量
11
12
14
15
18
20
根据表中所给数据,可得相关系数__________.(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
四、解答题
15.(23-24高二下·陕西·月考)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量.随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.03
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
附:相关系数,.
16.(24-25高二下·广东深圳·期中)深圳欢乐谷试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
12
12.5
13
13.5
14
14
13
11
9
8
(1)求该纪念品定价的平均值和销量的平均值.
(2)计算与的相关系数;判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:,.
参考公式:相关系数.若,则与的线性相关性很强.
17.(24-25高二·全国·课堂例题)某食品加工厂新研制出一种袋装食品(规格:500g/袋),下面是近六个月每袋的出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号
1
2
3
4
5
6
每袋的出厂价格(元)
10.5
10.9
11
11.5
12
12.5
月销售量(万袋)
2.2
2
1.9
1.8
1.5
1.4
(1)计算该食品加工厂这六个月内这种袋装食品平均每袋的出厂价格、平均月销售量和平均月销售收入;
(2)求每袋的出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若,则认为相关性很强,试判断该食品加工厂研制的袋装食品每袋的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数.
18.(23-24高二下·吉林长春·期末)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中15个区域进行编号,统计抽取到的每个区域的某种水源指标和区域内该植物分布的数量,得到数组.已知,.
(1)求样本的样本相关系数;
(2)假设该植物的寿命为随机变量X(X可取任意正整数),研究人员统计大量数据后发现,对于任意的,寿命为的样本在寿命超过k的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均为0.1,这种现象被称为“几何分布的无记忆性”.用含k的式子表示,并求的值.
附:样本相关系数;当k足够大时,.
19.(24-25高二下·全国·课后作业)2019年11月份,全国工业生产者出厂价格同比下降,环比下降.某企业在了解市场动态之后,决定根据市场动态及时做出相应调整,并结合企业自身的情况制定相应的出厂价格.该企业统计了2019年1-10月份产品的生产数量与销售总额之间的关系,如下表所示.
万件
2.08
2.12
2.19
2.28
2.36
2.48
2.59
2.68
2.80
2.87
万元
42.5
43.7
44.0
45.5
46.4
47.5
49.2
50.3
51.4
52.6
(1)计算的值;
(2)计算样本相关系数的值,并通过的值的大小说明与之间的相关程度.
1
学科网(北京)股份有限公司
$