内容正文:
重难专题01 刷透回归分析的九大必刷题型
(含多模型对比与最优模型选择、回归分析与图表、实际情境综合应用等题型)
题型一 散点图与相关性判断
1.(2026上海闵行二模)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
【答案】D
【解析】对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:两个变量不具有线性相关性,故B错误;
对于C:两个变量之间的关系为负相关关系;故C错误;
对于D:两个变量之间的关系为正相关关系,且散点图中的点分布在一条直线附近,线性相关程度较高;
故D正确.
题型二 相关系数r的计算与解读
1.(25-26高三上天津滨海新区期中)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最小的是( )
A. B.
C. D.
【答案】B
【解析】由散点图可得,图1为正相关,则,且相关性较强,则,
图2为负相关,则,且相关性较强,则,
图3为正相关,则,
图4为负相关,但数据相关性较弱,所以,
所以相关系数最小的为.
故选:B
2.(2026河北沧州二模)某新能源汽车4S店在某平台开启了直播销售,星期一至星期五的五个工作日内,直播时长x(小时)与直播时在线观看人数y(百人)如下表:
星期
一
二
三
四
五
直播时长x(小时)
2
5
6
4
8
直播时在线观看人数y(百人)
4
8
9
7
16
附:样本相关系数,,,.
试根据样本相关系数r的值判断该直播的在线观看人数y(百人)与直播时长x(小时)的线性相关性的强弱(若,则认为y与x的线性相关性较强;若,则认为y与x的线性相关性较弱).
【答案】y与x具有较强的线性相关性.
【解析】依题意,,,
所以,
又,则,
又,
所以,
因为,所以y与x具有较强的线性相关性.
题型三 线性回归方程的建立
1.(2026山东青岛一模)已知变量,的统计数据如下,若与的回归直线方程为,则( )
2.8
3.3
5.0
6.7
7.2
2.6
4.0
5.1
5.4
A.2.5 B.2.7 C.2.9 D.3.1
【答案】C
【解析】由题意,可得,,
所以样本点的中心坐标为,
代入回归直线方程,可得,
解方程得.
2.(2026上海嘉定二模)生物学家在研究动物体重W(单位:g)与脉搏率f(单位:次)的关系时,获得了右表的数据,令,,并拟合线性回归方程.根据已知数据,下列说法正确的是( )
动物名
体重
脉搏率f/(次)
鼠
25
670
豚鼠
300
300
兔
2000
205
小狗
5000
120
大狗
30000
85
羊
50000
70
马
450000
38
A.变量x与y成正相关,且 B.变量x与y成负相关,且
C.变量x与y成正相关,且 D.变量x与y成负相关,且
【答案】D
【解析】由表格数据可得随着动物体重增加,脉搏率逐渐减小,即随着增加,逐渐减小.
又函数在上单调递增,则随着增加,逐渐减小,
从而与负相关,.注意到,
又由题可得,结合,
可得.
3.(25-26高三下河北邯郸月考)现有10个样本数据,,…,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C. D.2
【答案】A
【解析】根据回归直线过样本中心点,代入得:
,所以原个样本的值总和为:,
去掉后,剩余个样本的值总和为:,值总和为:
因此新的样本中心点为:,
因为新的经验回归方程为,回归直线必过新的样本中心点,代入得:
,解得:.
题型四 回归方程代入预测与实际意义
1.(2026湖南一模)某科技公司统计了过去10年每年的研发投入(单位:亿元)和营业额(单位:亿元)的数据,如下表:
/亿元
12.1
12.5
11.3
12.4
13.1
11.5
11.0
11.3
12.6
12.2
/亿元
650
680
620
660
695
640
600
630
665
660
参考数据:,,,.
参考公式:相关系数.
(1)估计该公司平均每年的研发投入和平均每年的营业额;
(2)求样本的相关系数(精确到0.01);
(3)已知与的关系可以用线性回归模型进行拟合,若该公司今年投入13.5亿元用于研发,利用该模型预测该公司今年的营业额.
【答案】(1)12,650
(2)
(3)710亿元
【解析】(1)平均每年的研发投入为
平均每年的营业额为
.
(2)将所给数据代入相关系数计算公式得
.
其中,所以.
(3)由题意知,回归直线过样本中心点,即,解得.
所以回归方程为.将代入回归方程,得,故预测该公司今年的营业额为710亿元.
2.(2026浙江台州二模)2016-2024年我国的国内生产总值(GDP)的数据(摘自《中国统计年鉴-2025》)如下:
年份(x)
2016
2017
2018
2019
2020
2021
2022
2023
2024
GDP/万亿元(y)
74.64
83.20
91.93
98.65
101.36
114.92
120.47
129.43
134.91
由以上数据,得到x与y的9对样本数据为,,…,,有关计算结果如下:,,.
(1)证明:;
(2)请根据最小二乘法,求出一元线性回归方程,并计算出2025年的GDP预测值与实际值的误差.(注:从《中国统计年鉴-2025》中查得2025年的GDP为140.19万亿元.)
附:一元线性回归方程,其中.
【答案】(1)证明见解析
(2);3.07(万亿元)
【解析】(1)左边
=右边,故等式成立;
(2)设一元线性回归方程为,
则,
将代入回归方程可得,解得,
所以一元线性回归方程为.
当时,求得,即2025年的GDP预测值为143.26万亿元,
而2025年GDP的实际值为140.19万亿元,
故误差为(万亿元).
题型五 残差计算与残差图初步分析
1.(2026湖北孝感二模)为了研究物理成绩与数学成绩之间的关系,随机抽取名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A. B. C. D.
【答案】A
【解析】时的预测值,
时的真实为值,
样本点的残差为.
2.(2026重庆沙坪坝模拟预测)(多选题)成对数据和的一元线性回归模型为,依据模型可建立经验回归方程,用回归方程可得到响应变量的预测值及残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果.对下列四幅残差图的描述正确的是( )
A.图甲显示残差的方差随观测时间变大而变大
B.图乙满足一元线性回归模型对随机误差的假设
C.图丙说明残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分
D.图丁说明残差与观测时间有线性相关性,故满足一元线性回归模型对随机误差的假设
【答案】ABC
【解析】根据一元线性回归模型中对随机误差的假定,残差应是均值为、方差为的随机变量的观测值.
对于A选项,由图可知残差的方差随观测时间变大而变大,故A正确;
对于B选项,由图可知残差比较均匀地分布在水平带状区域内,满足一元线性回归模型对随机误差的假设,故B正确;
对于C选项,由图知残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分,故C正确;
对于D选项,由图知残差与有线性关系,不符合题意,故D错误.
3.(2026江苏二模)(多选题)下列说法正确的是( )
A.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好
B.已知关于的回归方程为,则样本点的残差为
C.设为两个随机事件,,若,则事件与事件相互独立
D.若样本数据,,…,的方差为,则数据,,…,的方差为
【答案】AC
【解析】对于A,回归分析中,残差平方和是实际值与预测值差的平方和,其值越小说明预测值与实际值越接近,拟合效果越好,故A正确;
对于B,残差定义为观测值(实际值)减去预测值,即,对于样本点,预测值,
所以其残差为,故B错误;
对于C,因为,所以,所以事件与事件相互独立,故C正确;
对于D,因为样本数据,,…,的方差为,
即,为数据,,…,的平均数,
设数据,,…,的平均数为,
则,
所以数据,,…,的方差为:
,故D错误.
4.(2026·安徽马鞍山·一模)为响应“全民健身”号召,某社区统计了5名居民每周参与体育锻炼的时长(单位:小时)与身体活力指数的对应数据,结果如下表所示:
特征量
居民
居民
居民
居民
居民
2
4
6
8
10
4
5
6
8
7
(1)根据表中数据,计算样本相关系数,并推断它们的相关程度;
(2)求身体活力指数关于每周锻炼时长的一元线性回归方程,并利用该方程计算居民的身体活力指数残差.
参考公式:相关系数;回归系数.
【答案】(1),与成正相关,有较强的相关性;
(2),1.1.
【解析】(1)由给定数表得,
,
,
,
所以样本相关系数,
与成正相关,有较强的相关性.
(2)由(1)得,
所以身体活力指数关于每周锻炼时长的一元线性回归方程为,
当时,,所以居民的身体活力指数残差为.
题型六 非线性回归模型转化
1.(25-26高三下重庆月考)用模型拟合一组数据,设,其变换后的线性回归方程为,若,,为自然对数底数,则________.
【答案】/
【解析】因为,
,
由线性回归方程过点可得:.
2.(25-26高三下安徽淮北月考)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【答案】(1)
(2).
(3)册
【解析】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
3.(25-26高三下河南新乡月考)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2);
(3)答案见解析
【解析】(1)根据题意,经比较可知,选择②()作为学习时间x和平均成绩y的回归类型最合适;
(2)对()两边取以e为底的对数可得,
设,则,
,所以,
故,即,
所以;
(3)此回归方程为关于学习时间的增函数,说明随着课后的学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加课后的学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长课后的学习时间来提高学习成绩就比较困难了,需要想别的办法.
题型七 决定系数R2与模型拟合效果评价
1.(2025广东佛山三模)(多选题)生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关.有人调查了10名男大学生的身高(单位:)及其父亲身高(单位:)的数据,已知其中一组数据为,且,求得经验回归方程为,并绘制了如下残差图(残差观测值预测值),则
A.这10名男大学生的身高的平均值为176.75
B.由残差图可判定儿子身高与父亲身高的关系不符合上述回归模型
C.数据对应的残差为3.7
D.去掉数据后,重新求得的回归直线的决定系数变小
【答案】AC
【解析】满足经验回归方程,代入,计算可得,故A正确;
从残差图中可以看到残差比较均匀地分布在以均值为0,横轴为对称轴的水平带状区域内,满足上述回归模型,故B错误;
代入,得,因此残差为,故C正确;
由残差图可知是一个极端数据,去掉后重新求得的回归直线拟合程度会变好,决定系数变大,D错误.
故选:AC.
2.(2027高三全国专题练习)(多选题)自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到的海拔6千米千米的大气压强散点图,根据一元线性回归模型得到线性回归方程为,决定系数为;根据非线性回归模型得到回归方程为,决定系数为,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低
C.由方程可知,当时,
D.对比两个回归模型,结合实际情况,方程的预报效果更好
【答案】AD
【解析】对于A,由题图知,海拔高度越高,大气压强越小,所以大气压强与海拔高度负相关,故A正确;
对于B,线性回归方程得到的数据为估计值,而非精确值,故B错误;
对于C,当时,,故C错误;
对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程的预报效果更好,
故选:AD.
3.(2025广东汕头一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是________.(填“甲”或“乙”或“丙”)
【答案】丙
【解析】甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①拟合效果更好;
残差平方和越大,即决定系数越小,说明数据点越离散,
所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好.
故答案为:丙.
4.(2024广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
【答案】
【解析】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
3.(25-26高三上湖南长沙月考)海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
【答案】(1)吨.
(2)残差表见解析;,拟合效果较好.
【解析】(1)根据题中数据可知,,
将样本中心点的坐标代入经验回归方程得
,解得,
所以经验回归方程为.
当时,,
即当浇灌海水浓度为8‰时,该品种海水稻的亩产量为吨.
(2)(i)由经验回归方程可得
,;
,;
,;
,;
,.
所以残差表如下:
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(ii)由上数据可知,
,
所以决定系数,与1比较接近,
所以拟合效果较好.
题型八 多模型对比与最优模型选择
1.(2026湖南长沙一模)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)模型一的拟合效果更好,理由见解析
(2)(ⅰ)点,理由见解析;(ⅱ)
【解析】(1)模型一的拟合效果更好,理由如下:
模型一残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型二的带状宽度窄,所以模型一的拟合精度更高,经验回归方程的预报精度相应就越高.
(2)(ⅰ)点,理由如下:
因为模型一的拟合效果更好,经验回归方程为,
所以该方程相应于点的残差为,故选点;
(ⅱ)由题可知,,
所以,
由,,
所以
.
2.(2026湖南怀化一模)我国新能源汽车迅速崛起,成为推动绿色革命的核心引擎.某品牌新能源汽车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:.现有①和②两种模型作为年销售量关于年广告费的回归分析模型,其中均为常数.
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)为刺激消费,省出台了以下补贴政策:每购买一辆新能源汽车,补贴6000元.若甲、乙两人近期在省购买一辆该新能源汽车的概率分别为,其中,每人最多购买一辆.求该省对甲、乙两人补贴总金额的期望值的取值范围.
参考数据:.
相关系数.
【答案】(1)模型②的拟合程度更好
(2)元
【解析】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)由题意,甲乙买车的总数量可能值为,
,
,
,
该省对甲、乙两人买车数量期望值为,
所以两人补贴总金额期望值为,,
由在上单调递增,则,
所以.
3.(24-25高二下上海月考)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【解析】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
题型九 回归分析与图表、实际情境综合应用
1.(2026山西临汾一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适宜
(2)
(3)347
【解析】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
2.(2026贵州毕节二模)某电商公司为研究直播带货中平台流量推广投入x(单位:万元)与销售额y(单位:万元)的关系,统计了最近10场直播带货中平台流量推广投入和销售额数据,计算得:,.
(1)求销售额y关于直播带货中平台流量推广投入x的线性回归方程;
(2)该公司计划下一场直播投入总额10万元,现有两种方案:方案一:全部用于平台流量推广;方案二:部分用于平台流量推广,部分用于主播佣金激励.其中平台流量推广投入x万元(),主播佣金激励投入()万元.根据以往经验,主播佣金激励投入t万元的销售额为()万元;平台流量推广的效果仍符合(1)中的回归方程.比较两种方案,如何分配投入才能使销售额最大?并求出最大销售额.
参考公式:线性回归方程中,,.
【答案】(1)
(2)分配6万元投入平台流量推广、4万元投入主播佣金,最大销售额为万元.
【解析】(1)由题意知,样本量 , ,,
根据公式变形得回归系数: ,
则 ,
因此,销售额y关于直播带货中平台流量推广投入x的线性回归方程为:;
(2)方案一:全部投入平台流量推广,即代入回归方程得销售额:万元;
方案二:投入万元到流量推广,万元到主播佣金,且,
总销售额为流量销售额加佣金销售额:,
对称轴为 ,在定义域内,最大值为 万元,
因为 ,所以投入6万元到平台流量推广,4万元到主播佣金时销售额最大,最大销售额为76万元。
综上可得:分配6万元投入平台流量推广、4万元投入主播佣金时销售额最大,最大销售额为万元.
3.(2025·海南省直辖县级单位模拟预测)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
24
2.9
646
168
422688
50.4
70308
表中,,,;
(1)根据残差图,比较模型①、②的拟合效果,模型_____比较合适?根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)模型①,;
(2)①;②均值为2,方差为
【解析】(1)模型①更合适,理由如下:
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状区域宽度窄,
所以模型①的拟合效果更好,故选模型①比较合适.
令,则,
由所给的参考数据可得,,
所以,
因此关于的线性回归方程为,即,
所以产卵数关于温度的回归方程为.
(2)①由题意得,,
所以
,
令,得,当时,,当时,,
所以在上单调递增,在上单调递减,
所以取得最大值时对应的概率;
②由①知,当时,取最大值,
所以当时,,
由题意可知每年需要人工防治的概率为,且服从二项分布,
所以,.
6 / 23
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
重难专题01 刷透回归分析的九大必刷题型
(含多模型对比与最优模型选择、回归分析与图表、实际情境综合应用等题型)
题型一 散点图与相关性判断
1.(2026上海闵行二模)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
题型二 相关系数r的计算与解读
1.(25-26高三上天津滨海新区期中)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最小的是( )
A. B.
C. D.
2.(2026河北沧州二模)某新能源汽车4S店在某平台开启了直播销售,星期一至星期五的五个工作日内,直播时长x(小时)与直播时在线观看人数y(百人)如下表:
星期
一
二
三
四
五
直播时长x(小时)
2
5
6
4
8
直播时在线观看人数y(百人)
4
8
9
7
16
附:样本相关系数,,,.
试根据样本相关系数r的值判断该直播的在线观看人数y(百人)与直播时长x(小时)的线性相关性的强弱(若,则认为y与x的线性相关性较强;若,则认为y与x的线性相关性较弱).
题型三 线性回归方程的建立
1.(2026山东青岛一模)已知变量,的统计数据如下,若与的回归直线方程为,则( )
2.8
3.3
5.0
6.7
7.2
2.6
4.0
5.1
5.4
A.2.5 B.2.7 C.2.9 D.3.1
2.(2026上海嘉定二模)生物学家在研究动物体重W(单位:g)与脉搏率f(单位:次)的关系时,获得了右表的数据,令,,并拟合线性回归方程.根据已知数据,下列说法正确的是( )
动物名
体重
脉搏率f/(次)
鼠
25
670
豚鼠
300
300
兔
2000
205
小狗
5000
120
大狗
30000
85
羊
50000
70
马
450000
38
A.变量x与y成正相关,且 B.变量x与y成负相关,且
C.变量x与y成正相关,且 D.变量x与y成负相关,且
3.(25-26高三下河北邯郸月考)现有10个样本数据,,…,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C. D.2
题型四 回归方程代入预测与实际意义
1.(2026湖南一模)某科技公司统计了过去10年每年的研发投入(单位:亿元)和营业额(单位:亿元)的数据,如下表:
/亿元
12.1
12.5
11.3
12.4
13.1
11.5
11.0
11.3
12.6
12.2
/亿元
650
680
620
660
695
640
600
630
665
660
参考数据:,,,.
参考公式:相关系数.
(1)估计该公司平均每年的研发投入和平均每年的营业额;
(2)求样本的相关系数(精确到0.01);
(3)已知与的关系可以用线性回归模型进行拟合,若该公司今年投入13.5亿元用于研发,利用该模型预测该公司今年的营业额.
2.(2026浙江台州二模)2016-2024年我国的国内生产总值(GDP)的数据(摘自《中国统计年鉴-2025》)如下:
年份(x)
2016
2017
2018
2019
2020
2021
2022
2023
2024
GDP/万亿元(y)
74.64
83.20
91.93
98.65
101.36
114.92
120.47
129.43
134.91
由以上数据,得到x与y的9对样本数据为,,…,,有关计算结果如下:,,.
(1)证明:;
(2)请根据最小二乘法,求出一元线性回归方程,并计算出2025年的GDP预测值与实际值的误差.(注:从《中国统计年鉴-2025》中查得2025年的GDP为140.19万亿元.)
附:一元线性回归方程,其中.
题型五 残差计算与残差图初步分析
1.(2026湖北孝感二模)为了研究物理成绩与数学成绩之间的关系,随机抽取名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A. B. C. D.
2.(2026重庆沙坪坝模拟预测)(多选题)成对数据和的一元线性回归模型为,依据模型可建立经验回归方程,用回归方程可得到响应变量的预测值及残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果.对下列四幅残差图的描述正确的是( )
A.图甲显示残差的方差随观测时间变大而变大
B.图乙满足一元线性回归模型对随机误差的假设
C.图丙说明残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分
D.图丁说明残差与观测时间有线性相关性,故满足一元线性回归模型对随机误差的假设
3.(2026江苏二模)(多选题)下列说法正确的是( )
A.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好
B.已知关于的回归方程为,则样本点的残差为
C.设为两个随机事件,,若,则事件与事件相互独立
D.若样本数据,,…,的方差为,则数据,,…,的方差为
4.(2026·安徽马鞍山·一模)为响应“全民健身”号召,某社区统计了5名居民每周参与体育锻炼的时长(单位:小时)与身体活力指数的对应数据,结果如下表所示:
特征量
居民
居民
居民
居民
居民
2
4
6
8
10
4
5
6
8
7
(1)根据表中数据,计算样本相关系数,并推断它们的相关程度;
(2)求身体活力指数关于每周锻炼时长的一元线性回归方程,并利用该方程计算居民的身体活力指数残差.
参考公式:相关系数;回归系数.
题型六 非线性回归模型转化
1.(25-26高三下重庆月考)用模型拟合一组数据,设,其变换后的线性回归方程为,若,,为自然对数底数,则________.
2.(25-26高三下安徽淮北月考)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
3.(25-26高三下河南新乡月考)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
题型七 决定系数R2与模型拟合效果评价
1.(2025广东佛山三模)(多选题)生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关.有人调查了10名男大学生的身高(单位:)及其父亲身高(单位:)的数据,已知其中一组数据为,且,求得经验回归方程为,并绘制了如下残差图(残差观测值预测值),则
A.这10名男大学生的身高的平均值为176.75
B.由残差图可判定儿子身高与父亲身高的关系不符合上述回归模型
C.数据对应的残差为3.7
D.去掉数据后,重新求得的回归直线的决定系数变小
2.(2027高三全国专题练习)(多选题)自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到的海拔6千米千米的大气压强散点图,根据一元线性回归模型得到线性回归方程为,决定系数为;根据非线性回归模型得到回归方程为,决定系数为,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程可知,海拔每升高1千米,大气压强必定降低
C.由方程可知,当时,
D.对比两个回归模型,结合实际情况,方程的预报效果更好
3.(2025广东汕头一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是________.(填“甲”或“乙”或“丙”)
4.(2024广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
3.(25-26高三上湖南长沙月考)海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
题型八 多模型对比与最优模型选择
1.(2026湖南长沙一模)某医药研究所为了评估一种新药的疗效,开展了临床试验.研究人员记录了14名志愿者服用不同剂量的药物后,血液中某关键生化指标y(单位:)随给药剂量x(单位:mg)的变化情况.为了寻找最合适的预测模型,研究人员分别利用模型一和模型二对这14组数据进行了拟合,并绘制了相应的残差图(如图所示,图中纵轴为残差,横轴为给药剂量).
(1)观察残差图,判断哪个模型的拟合效果更好,并说明理由;
(2)设这14组数据得到的经验回归方程为.
(ⅰ)已知样本中的某位志愿者的给药剂量为,生化指标为.若该样本点在拟合效果更优的模型中的残差对应于图中标注的四点之一,请指出该点并说明理由;
(ⅱ)若在这14组数据中,给药剂量的标准差为,生化指标的标准差为,求生化指标与给药剂量的相关系数.(结果精确到0.01)
参考公式:相关系数;经验回归方程中斜率和截距的最小二乘估计公式分别为,.
2.(2026湖南怀化一模)我国新能源汽车迅速崛起,成为推动绿色革命的核心引擎.某品牌新能源汽车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:.现有①和②两种模型作为年销售量关于年广告费的回归分析模型,其中均为常数.
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)为刺激消费,省出台了以下补贴政策:每购买一辆新能源汽车,补贴6000元.若甲、乙两人近期在省购买一辆该新能源汽车的概率分别为,其中,每人最多购买一辆.求该省对甲、乙两人补贴总金额的期望值的取值范围.
参考数据:.
相关系数.
3.(24-25高二下上海月考)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元?(结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
题型九 回归分析与图表、实际情境综合应用
1.(2026山西临汾一模)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
2.(2026贵州毕节二模)某电商公司为研究直播带货中平台流量推广投入x(单位:万元)与销售额y(单位:万元)的关系,统计了最近10场直播带货中平台流量推广投入和销售额数据,计算得:,.
(1)求销售额y关于直播带货中平台流量推广投入x的线性回归方程;
(2)该公司计划下一场直播投入总额10万元,现有两种方案:方案一:全部用于平台流量推广;方案二:部分用于平台流量推广,部分用于主播佣金激励.其中平台流量推广投入x万元(),主播佣金激励投入()万元.根据以往经验,主播佣金激励投入t万元的销售额为()万元;平台流量推广的效果仍符合(1)中的回归方程.比较两种方案,如何分配投入才能使销售额最大?并求出最大销售额.
参考公式:线性回归方程中,,.
3.(2025·海南省直辖县级单位模拟预测)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
24
2.9
646
168
422688
50.4
70308
表中,,,;
(1)根据残差图,比较模型①、②的拟合效果,模型_____比较合适?根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
6 / 23
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$