内容正文:
8.2 一元线性回归模型及其应用
题型预览
题型一 根据散点图判断是否线性相关
题型二 样本中心点的相关问题
题型三 求回归直线方程
题型四 残差的计算
题型五 决定系数的计算及分析
题型六 非线性回归
知识清单
一元线性回归模型
为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
最小二乘法和经验回归方程
(1)有关概念
=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)计算公式
【注意】(1)经验回归直线过点()
(2)经验回归方程=x+中的表示x增加1个单位时,y的平均变化量为,而表示y不随x的变化而变化的部分
残差及残差分析
(1)对于响应变量Y,通过观测得到的数据称为观测值.通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.在残差图中,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(3)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差平方和与决定系数R2
(1)残差图法:在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
(3)决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越小,模型拟合效果越差,R2越大,模型拟合效果越好.
【注意】决定系数R2的取值范围是0≤R2≤1
刻画回归效果的三种方法
(1)残差图法:残差比较均匀地落在水平带状区域内,则说明选用的模型比较合适.
(3)决定系数R2法:R2= 越接近1,表明模型的拟合效果越好.
非线性回归分析
(1)非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
(2)非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
非线性回归问题的处理方法
(1)指数函数型y=eb x+a
①函数y=eb x+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=b ln x+a
①函数y=b ln x+a的图象,如图所示.
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
题型突破
题型一 根据散点图判断是否线性相关
1.(25-26高二下·辽宁沈阳·月考)如图所示,4个散点图中,不适合用线性回归模型拟合其中两个变量的是( ).
A.B.C. D.
【答案】A
【详解】选项A的散点分布杂乱,没有明显的线性趋势,即散点不集中在一条直线附近,因此不适合用线性回归模型拟合;
选项B、C、D的散点都大致分布在一条直线附近,存在明显线性相关关系,适合线性回归模型拟合.
2.(2026·上海闵行·二模)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
【答案】D
【详解】对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:两个变量不具有线性相关性,故B错误;
对于C:两个变量之间的关系为负相关关系;故C错误;
对于D:两个变量之间的关系为正相关关系,且散点图中的点分布在一条直线附近,线性相关程度较高;故D正确.
3.(24-25高三上·安徽滁州·月考)下表为2018年—2022年的中国数字经济规模(单位:万亿元):
年份
2018
2019
2020
2021
2022
年份代码x
1
2
3
4
5
中国数字经济规模y
31.3
35.8
39.2
45.5
50.2
则下列所给函数模型中比较适合这一数据关系的是( )
A. B.
C. D.
【答案】C
【分析】取代入各选项中求出y值,再与50.2比较即可得答案.
【详解】对于,当时,.与50.2相差较大;
对于,当时,,与50.2相差较大;
对于,当时,,与50.2相差较大;
根据数据可得中国数字经济规模每年比上一年增长12%左右,所以比较合适,
故选:C.
4.(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【详解】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
5.(25-26高三上·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
【答案】C
【分析】根据折线图中各阶段的数据,计算其样本中心纵坐标、极差,并结合数据的变化趋势画出近似回归直线,即可确定回归方程参数之间的大小关系.
【详解】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,
∴由图知:2010年至2014年数据为;
2015年至2019年数据为;
2010年至2019年数据为;均成递减趋势.
又,,,且极差分别为6、51、65,
三条回归方程的直线大致图象,如下图示:
∴回归方程的斜率大小关系为,且截距.
故选:C.
题型二 样本中心点的相关问题
6.(25-26高二下·内蒙古呼和浩特·月考)(多选)下列说法中正确的是(多选)( )
A.回归直线恒过样本点的中心.
B.两个变量线性相关性越强,则相关系数就越接近1.
C.在线性回归方程中,当变量每增加一个单位时,平均减少0.5个单位.
D.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变.
【答案】ABC
【详解】对于A,回归直线恒过样本点的中心,正确;
对于B,两个变量线性相关性越强,则相关系数就越接近,正确;
对于C,根据回归系数的含义,线性回归方程,当变量每增加一个单位时,平均减少个单位,正确;
对于D,根据平均数的计算公式得,由方差公式可得:
,故错误
7.(25-26高二下·内蒙古呼和浩特·月考)(多选)下列关于回归分析的说法正确的是( )
A.相关系数的取值范围是,且越大,线性相关程度越强
B.回归直线必过样本中心点
C.残差平方和越小,说明模型的拟合效果越好
D.相关系数表示两个变量正相关,表示负相关
【答案】BCD
【详解】A:因为相关系数的取值范围是,且越大,线性相关程度越强,所以本选项说法不正确;
B:因为回归直线必过样本中心点,所以本选项说法正确;
C:因为残差平方和越小,说明模型的拟合效果越好,所以本选项说法正确;
D:因为相关系数表示两个变量正相关,表示负相关,所以本选项说法正确;
8.(25-26高二下·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
【答案】
【详解】由题意可得,
,
因为回归直线方程经过点,
所以.
9.(2026·广东清远·二模)已知线性相关的两个变量的取值如表所示,如果其线性回归方程为,则( )
3
4
6
7
20
40
80
A.50 B.60 C.70 D.75
【答案】B
【分析】求出样本中心,代入回归方程求解即可.
【详解】因为,
又因为所有回归方程都过样本中心,
所以将点代入回归方程,
得,
解得.
10.(25-26高二下·黑龙江大庆·期中)某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
【答案】B
【详解】因为,且,
所以,解得.
11.(2025·江西萍乡·二模)为了研究与的线性相关关系,某同学收集了5组样本数据(如下表),利用最小二乘法得到关于的线性回归方程为,则下列说法正确的是( )
1
2
3
4
5
2
4
9
7
A.
B.这5组样本数据中,的分位数为4
C.当时,的预测值为10
D.去掉样本点后,与的样本相关系数必会改变
【答案】C
【详解】对于A,,,
故,,故A错误;
对于B,的由小到大的排列为,而,
故的分位数为,故B错误;
对于C,由A中计算可得,故当时,,故C正确;
对于D,设原数据的相关系数为,则,
删除样本中心后,设剩余的样本点为,如下表:
1
2
4
5
2
4
9
7
则,,
该组数据对应的相关系数为,则,
故,故D错误.
12.(25-26高二下·江西萍乡·期中)(多选)在一项关于学生体能测试的研究中,某研究小组随机选取了100名学生作为研究对象.他们记录了每位学生的日常锻炼时间(记为变量,单位:小时)与体能测试得分(记为变量,单位:分)的数据.通过对这100组成对数据进行统计分析,某学生计算出回归直线方程为,则下列说法正确的是( )
A.体能测试得分与日常锻炼时间正相关
B.该样本数据的相关系数为4.8
C.该样本数据中的所有点都可以不在该回归直线方程上
D.某学生的日常锻炼时间为2小时,则他的体能测试得分一定为82分
【答案】AC
【详解】对于A,在回归直线方程中,由,得与日常锻炼时间正相关,A正确;
对于B,该样本数据的相关系数在内,B错误;
对于C,该样本数据中的所有点都可以不在该回归直线方程上,C正确;
对于D,当时,,即时间为2小时,体能测试得分约为82分,D错误.
13.(2026·陕西商洛·二模)已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下对应数据:
4
6
7
8
根据上表可得经验回归方程,据此估计,当投入万元广告费时,销售额为( )
A.万元 B.万元 C.万元 D.万元
【答案】D
【详解】由上表可知:,,
样本点的中心为,
代入经验回归方程,得,
经验回归方程为,
将代入可得,
当投入万元广告费时,销售额为万元.
题型三 求回归直线方程
14.(25-26高二下·全国·期中)某研究分析学习时间(,小时)与考试成绩(,分)的关系,数据如下:
x
2
4
5
7
8
10
11
12
y
30
40
50
60
70
80
90
100
(1)求线性回归方程;
(2)在下检验x与y的线性相关性(已知).
【答案】(1);
(2)线性相关显著.
【分析】(1)根据给定的数表,利用最小二乘法求出线性回归方程.
(2)由(1)的信息求出相关系数并与临界值比对即得.
【详解】(1)依题意,,
,
,
因此,,
所以所求线性回归方程为.
(2)由数表得
因此相关系数,
所以线性相关显著.
15.(2026·河北沧州·二模)某人统计了2020-2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,,,
【答案】(1)非常接近1,说明变量与的线性相关程度很强
(2),38.5百亿元
【分析】(1)根据表格里的数据与公式计算样本相关系数的值,再根据的取值判断线性相关程度;
(2)利用问题(1)中已算出的数据以及公式计算出的值,再代入样本中心点得的值,即得关于的经验回归方程,可得答案.
【详解】(1)由题意,根据表格中的数据,
可得,,
,,
,
故,
所以,
非常接近,说明变量与的线性相关程度很强.
(2)由(1)可得,,,,
所以,
则.
可得关于的经验回归方程为,
令,可得,
所以预测2027年该网站“双11”当天的交易额为38.5百亿元.
16.(25-26高二下·河南周口·月考)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【答案】(1),与完全负相关
(2)
(3)16元
【详解】(1),,
故,
故与完全负相关.
(2),
故,回归方程为.
(3)由题设,此时,故,故定价最高为16元.
17.(25-26高二下·辽宁朝阳·期中)某高中,高二数学备课组对学生记忆力和判断力进行统计分析,所得数据如下表所示:
4
6
8
10
12
2
3
5
6
8
(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测记忆力为9的学生的判断力.
(参考公式:.
【答案】(1);
(2)
【详解】(1),,
,
则,
所以关于的线性回归方程为;
(2)中,令得,
预测记忆力为9的学生的判断力为.
18.(2026·云南昭通·二模)新型AI模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图象数据对一种新型AI降噪模型进行实验,对使用该模型后,图象中的噪声残留量(单位:个/像素)进行检测,统计得到下表:
第轮迭代
1
2
3
4
5
噪声残留量(个/像素)
70
60
52
45
38
并计算得:.
(1)计算变量(迭代轮数)和变量(噪声残留量)的样本相关系数,并说明两变量线性的相关程度;
(2)若图象中的噪声残留量不高于个/像素,则说明数据降噪完成.用最小二乘法求关于的经验回归方程,并预测该AI模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:
样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,.
【答案】(1),迭代轮数与噪声残留量之间存在极强的负线性相关关系;
(2)经验回归方程为;该AI模型至少需要迭代7轮才可以完成降噪
【分析】(1)利用相关系数的公式求解即可;
(2)求出,利用的公式代值计算即可得到经验回归方程,令,解不等式即可求解.
【详解】(1)由题可得:,
样本相关系数
,非常接近,说明迭代轮数与噪声残留量之间存在极强的负线性相关关系;
(2)噪声残留量的取值为
因此:,
根据题意可得,
所以关于的经验回归方程为,
要使图象中的噪声残留量不高于25个/像素,则,即,
所以该AI模型至少需要迭代轮才可以完成降噪.
题型四 残差的计算
19.(2026高三下·山东青岛·专题练习)已知线性相关的两个变量,的取值如表所示,如果其线性回归方程为,那么当时的残差为( )
3
4
6
7
20
40
60
A.2 B. C.3 D.
【答案】A
【详解】由表格可得,
因样本中心点满足回归方程,
故有,解得.
当时,,
此时残差为.
20.(25-26高二下·上海·期中)绝对零度()是一个只能逼近而不能达到的最低温度,那么这个数据是如何得到的?小张同学通过查询资料了解到:①气体温度和气体压强存在线性关系;②当气体压强为时,气体温度达到绝对零度.小张同学在实验时,记录了某种气体温度和气体压强一组相关数据:
数据
1
2
3
4
5
6
温度
4.07
16.69
29.42
45.67
57.06
73.05
压强
103.095
107.734
112.461
118.469
122.706
128.758
(1)用上表数据建立气体压强与气体温度的线性回归方程,若这组实验数据的拟合误差小于0.05,则认为得到的线性回归是理想的.求出回归方程(精确到0.001),并判断所得回归方程是否理想?附:拟合误差
(2)估计该次实验下绝对零度的数值.(精确到)
【答案】(1),回归方程是理想的
(2)
【详解】(1),
,
,
将,即代入,
解得
回归方程为 ,
,
因为 ,所以回归方程是理想的.
(2)回归方程为,
令,解得(),
预估该次实验下绝对零度的数值为.
21.(25-26高二下·浙江舟山·期中)(多选)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:.
A.
B.用最小二乘法求得关于的线性回归直线方程为
C.由散点图知变量和正相关,相关系数的绝对值越接近0,表示x,y的线性相关程度越强
D.当时,残差为
【答案】ABD
【详解】对于A,,,故A正确;
对于B,根据公式计算回归系数,
,
所以回归直线方程为,故B正确;
对于C,散点图如下所示,
由图可知,变量x和正相关,但相关系数越接近1,线性相关程度越强,
越接近0,相关程度越弱,故C错误;
对于D当时,预测值,实际值,
残差,故D正确.
22.(25-26高二下·重庆·期中)已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
【答案】A
【分析】分别求修正前和修正后的样本点中心,再代入回归直线方程求解回归后的直线方程,再代入残差公式.
【详解】.因为,所以,因为经验回归方程过点,
所以,所以增加一个数据后的,,
设修正后的回归直线为,而修正后的回归直线过点,即 ,
所以,
解得,所以修正后的回归直线为 ,
所以数据 相对于修正后的回归直线的残差为 .
23.(2026·江苏·二模)(多选)下列说法正确的是( )
A.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好
B.已知关于的回归方程为,则样本点的残差为
C.设为两个随机事件,,若,则事件与事件相互独立
D.若样本数据,,…,的方差为,则数据,,…,的方差为
【答案】AC
【分析】由残差的意义判断A;求出样本点的残差判断B;由题意可得,由独立事件的定义判断C;求出新数据的方差判断D.
【详解】对于A,回归分析中,残差平方和是实际值与预测值差的平方和,其值越小说明预测值与实际值越接近,拟合效果越好,故A正确;
对于B,残差定义为观测值(实际值)减去预测值,即,对于样本点,预测值,
所以其残差为,故B错误;
对于C,因为,所以,所以事件与事件相互独立,故C正确;
对于D,因为样本数据,,…,的方差为,
即,为数据,,…,的平均数,
设数据,,…,的平均数为,
则,
所以数据,,…,的方差为:
,故D错误.
题型五 决定系数的计算及分析
24.(25-26高二下·河南周口·月考)下列命题正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.线性回归直线必过样本数据的中心点;
【答案】D
【分析】利用回归直线的性质,相关系数和决定系数的规定及残差分析的分析方式,逐项判断即可.
【详解】选项A:残差图中残差点所在的水平带状区域越宽,说明观测值与预报值之间的差距越大,数据分布越分散,因此回归方程的预报精确度就越差,所以选项A错误;
选项B:当相关系数时,说明两个变量正相关,所以选项B错误;
选项C:模型的决定系数越大,说明残差平方和越小,拟合效果越好,,所以模型甲的拟合效果更好,所以选项C错误;
选项D:回归直线的定义规定回归直线必过样本数据的中心点,所以选项D正确.
25.(25-26高二下·黑龙江大庆·期中)(多选)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:,则下列说法正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的经验回归方程表示的直线至少经过样本中的一个点
C.若变量x与y之间的相关系数越接近1,相关性越强
D.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
【答案】AC
【分析】根据回归直线的相关知识求解即可.
【详解】由拟合直线的特点可知,残差平方和越小的模型,拟合的效果越好,A选项正确;
由样本数据利用最小二乘法得到的经验回归方程表示的直线不一定经过样本中的一个点,但一定经过样本中心点,B选项错误;
由相关系数的概念可知,若变量x与y之间的相关系数越接近1,相关性越强,C选项正确;
由决定系数的概念可知,越大,说明模型的拟合效果越好,D选项错误.
26.(2026·广东广州·二模)某公司为了了解A商品销售收入(单位:万元)与广告支出(单位:万元)之间的关系,现收集的5组样本数据如下表所示,且经验回归方程为.
2
5
6
8
9
16
20
21
28
10.96
19.24
22
27.52
30.28
(1)求的值;
(2)现从这5组数据的残差中抽取2组进行分析(观测值减去预测值称为残差),记X表示抽到数据的残差为负的组数,求X的分布列和期望;
(3)已知,且当时,回归方程的拟合效果良好,试结合数据,判断经验回归方程的拟合效果是否良好.
【答案】(1)
(2)分布列见解析,
(3)经验回归方程的拟合效果不良好
【分析】(1)求出根据回归直线必过样本中心点求解即可;
(2)可能取值为,求出对应概率,进而得到分布列和期望;
(3)求出代入公式,即可得到答案.
【详解】(1),
,
因为,即,
解得.
(2)5组数据中,两组数据残差为正值,三组数据残差为负值,
所以可能取值为,
,
,
,
所以X的分布列为
0
1
2
期望.
(3),
,
所以经验回归方程的拟合效果是不良好.
27.(2026高三·浙江·专题练习)(多选)下列说法正确的是( )
A.数据的上四分位数为9
B.若,,且,则C,D相互独立
C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其回归直线方程为,若其中一个散点坐标为,则
D.将两个具有相关关系的变量的一组数据调整为,,…,,决定系数不变
(附: , ,)
【答案】BD
【分析】根据百分位数的计算方法,可判定A错误;根据条件概率和相互独立事件的概率公式,可判定B正确;根据回归直线方程的性质,可判定C错误;根据决定系数的公式,根据数据的变换前后分别相等,可判定D正确.
【详解】A,把数据从小到大排序,可得,共8个数据,
其中,所以数据的上四分位数为,所以A错误;
B,因为,且,所以,
由条件概率的公式,可得,
所以,所以相互独立,所以B正确;
C,散点不一定在回归直线上,不能直接代入直线方程,所以C错误,
D,由,将变成,则新均值为,新回归方程为,
因此新预测值,从而残差和总偏差与变换前分别相等,所以决定系数,所以D正确.
题型六 非线性回归
28.(2026·湖南浙江·模拟预测)为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
【答案】C
【分析】根据给定条件,求出样本中心点,进而求出,再还原模型即可.
【详解】依题意,,
由与的线性回归方程,得,则,
即,因此,所以.
29.(25-26高二下·内蒙古呼和浩特·月考)某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【答案】A
【分析】根据给定数据,利用最小二乘法求出关于的线性回归方程,进而求出关于的回归方程.
【详解】令,,由与呈线性相关关系,得线性回归方程,
则,,
因此,即,所以关于的回归方程为.
30.(2026高三下·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【答案】(1)选择模型②,理由见解析
(2),10人
【分析】(1)通过观察两个模型残差的波动幅度和集中程度来选择模型;
(2)结合所选模型,令,则可转化为线性回归模型,利用最小二乘法公式计算和;再将代回,得到关于的经验回归方程,进而求解的最小值.
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
31.(2026·辽宁沈阳·三模)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【答案】(1),实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩
(2)当施肥量为10kg/亩时利润最大
【分析】(1)根据题意,利用回归系数的公式,求得,进而得出回归直线方程,结合的值,得出的实际意义;
(2)由利润为,结合基本不等式,即可求解.
【详解】(1)根据题意,可得,
又由,
所以产量y关于施肥量x的回归方程为,
其中的实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩.
(2)设利润为元/亩,
当且仅当kg/亩时取等,即当施肥量为10kg/亩时利润最大.
32.(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【分析】(1)利用函数①②③的性质及表中的数据,即可求解;
(2)先将非线性回归方程转化成线性回归方程,再根据题设条件,利用最小二乘法,即可求解.
【详解】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
33.(25-26高二下·辽宁大连·月考)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
强化训练
1.(25-26高二下·河南南阳·月考)某研究小组收集了10组数据,计算得到相关系数,则以下结论最合理的是( )
A.与正相关且线性关系很强 B.与负相关且线性关系很强
C.与正相关但线性关系很弱 D.与负相关但线性关系很弱
【答案】B
【详解】因为,所以变量与负相关;
因为,非常接近于1,所以相关性很强.
2.(2026·安徽铜陵·模拟预测)已知变量和有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则( )
A.经验回归直线必过点
B.
C.当时,预测值
D.当时,样本点对应的残差为
【答案】D
【详解】对于A,因为,,
所以经验回归直线必过点,A错误;
对于B,因为经验回归方程为过点,
所以,解得,B错误;
对于C,将代入经验回归方程得,C错误;
对于D,当时,实际值,预测值,
所以残差为,D正确.
3.(25-26高二下·河南南阳·期中)已知蝗虫的产卵量与温度的关系可以用模型(其中e为自然对数的底数)拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则当时,蝗虫的产卵量的估计值为( )
A. B. C. D.
【答案】A
【详解】由表格数据知:,
,
代入,得,解得,
所以,即,
所以,当时,.
4.(山东省济宁市2026届高考模拟考试数学试题)用模型拟合一组数据,令,若根据样本数据计算可得,,且与的经验回归方程为,则( )(参考数据,)
A.1.2 B.0.92 C.0.3 D.0.4
【答案】D
【分析】根据给定的数据求出样本中心点,求出即可.
【详解】由,,
则,解得,因此,
由两边取对数,得,又,
所以,又因为,所以.
5.(25-26高三下·云南曲靖·月考)下列说法中不正确的是( )
A.一组数据的下四分位数为
B.在成对样本数据分析中相关系数,表示两个变量之间没有线性相关关系
C.根据线性回归方程得到预测值为时的观测值为,则残差为
D.将总体划分为两层,通过分层抽样,得到两层的样本平均数和样本方差分别为,和,,若,则总体方差
【答案】D
【详解】对于A,,下四分位数为,A正确;
对于B,相关系数的含义是两个变量没有线性相关关系,但可能存在非线性关系,B正确;
对于C,残差,C正确;
对于D,分层抽样的总体方差不仅与各层样本方差有关,还与各层的样本量和层间均值差异有关,即使,总体方差也不等于,还需要考虑各层的样本量权重,D不正确.
6.(25-26高三下·河北邯郸·月考)现有10个样本数据,,…,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C. D.2
【答案】A
【详解】根据回归直线过样本中心点,代入得:
,所以原个样本的值总和为:,
去掉后,剩余个样本的值总和为:,值总和为:
因此新的样本中心点为:,
因为新的经验回归方程为,回归直线必过新的样本中心点,代入得:
,解得:.
7.(2026·山东德州·二模)(多选)下表是我国2021年至2025年生活垃圾无害化处理量(单位:亿吨)与年份代码(1-5分别对应2021-2025)的相关数据.根据表中数据求得关于的经验回归方程为,则( )
1
2
3
4
5
12
18
25
30
34
A.与正相关
B.回归直线过点
C.
D.预测2030年生活垃圾无害化处理量为60亿吨
【答案】AC
【详解】,,
而回归直线为,故,故,故C正确,
因为,故与正相关,故A正确;
当时,,故B错误;
2030年对应,此时生活垃圾无害化处理量为(亿吨),
故D错误.
8.(25-26高二下·黑龙江大庆·月考)(多选)下列命题中正确的是( )
A.决定系数越大,残差平方和越小,模型拟合效果越好
B.若回归方程为,则变量y与x成负相关
C.某校高三年级男生的身高(单位:cm)近似服从,随机选择一名该校高三年级的男生,则(若,则,)
D.样本相关系数的取值范围为,刻画了样本点集中于某条直线的程度,当时,只表明成对样本数据间没有线性相关关系
【答案】ABD
【详解】决定系数越大,对应分式越小,分母为定值(对已知数据而言,与经验回归方程无关),则分子残差平方和越小,模型拟合效果越好,故A正确;
由回归方程可知,两个变量呈现线性相关,且随着x的增大,y减小,所以变量y与x成负相关,所以B正确;
因为学生身高近似服从正态分布,故均值为,标准差为,而范围在均值170的右侧距离到之间的区间,所以根据正态分布对称性可知:,所以可得
,故C错误;
样本相关系数的取值范围为,刻画了样本点集中于某条直线的程度(线性相关性),当时,只表明成对样本数据间没有线性相关关系,但是不排除其他相关关系,故D正确.
9.(2026·河南信阳·模拟预测)(多选)下列说法正确的有( )
A.若样本数据的方差为3,则数据的方差为27
B.设A,B为两个随机事件,若,则
C.在线性回归分析中,决定系数用来刻画拟合的效果,值越大,则模型的拟合效果越好
D.8人的成绩(单位:分)分别为81,82,84,84,85,86,88,90,则这8人成绩的上四分位数是85
【答案】ABC
【分析】应用方差性质计算判断A,应用条件概率公式计算判断B,应用决定系数定义判断C,应用百分位数定义计算判断D.
【详解】对于A:若样本数据的方差为3,则数据的方差为,A选项正确;
对于B:设A,B为两个随机事件,若,则,B选项正确;
对于C:在线性回归分析中,决定系数用来刻画拟合的效果,值越大,则模型的拟合效果越好,C选项正确;
对于D:8人的成绩(单位:分)分别为81,82,84,84,85,86,88,90,因为,
所以这8人成绩的上四分位数是,D选项错误;
10.(25-26高二下·江西赣州·期中)(多选)给出下列说法,其中正确的有( )
A.两个变量线性相关性越强,则相关系数r就越接近于1
B.离散型随机变量X服从两点分布,且,则
C.随机变量,若,则
D.用数字0,1,2,3,4组成的无重复数字的四位数中,偶数的个数为60
【答案】BCD
【分析】对A,根据相关系数性质判断即可;对B,利用两点分布的概率性质求解;对C,利用正态分布对称性可求;对D,数字排列问题,对个位数字0,2,4进行讨论可解.
【详解】两个变量线性相关性越强,则相关系数r的绝对值就越接近于1,故A错误;
随机变量 X 服从两点分布,则,又,
解得,故B正确;
随机变量,则,所以,
所以,故C正确;
若四位数为偶数,则其个位数字为0,2,4.当个位数字为0时,四位数有个;
当个位数字为2或4时,四位数共有个,
则偶数的个数为,故D正确.
11.(2026·四川攀枝花·二模)(多选)某公司近5年的利润情况如下表所示:
第年
1
2
3
4
5
利润/亿元
2
3
4
5
7
利用最小二乘法计算数据,得到的经验回归方程为,则( )
A.变量与正相关 B.回归直线一定过点
C. D.预测该公司第7年的利润约为9亿元
【答案】ACD
【分析】根据回归方程判断与成正相关,即可判断A;求出、,根据回归直线方程必过,即可求出,即可判断BC;令求出,即可预测第7年的利润,即可判断D.
【详解】因为回归直线方程为,且,所以与成正相关,故A正确;
由题意可得:,,
因为回归直线方程为必过样本中心点,故B错误;
则,解得,故C正确;
当时,,即该公司第7年的利润约为9亿元,故D正确.
12.(25-26高二下·浙江杭州·月考)(多选)下列结论正确的是( )
A.若随机变量,满足,则
B.若随机变量,且,则
C.若回归方程为,则变量y与x成负相关
D.线性回归分析可用决定系数判断模型拟合效果,越趋近于1,则拟合效果越好
【答案】BCD
【分析】对于A:根据二项分布的方差公式以及方差的性质运算求解;对于B:根据正态分布的对称性运算求解;对于C:根据负相关的概念分析判断即可;对于D:根据决定系数的概念分析判断即可.
【详解】对于选项A:因为随机变量,则,
且满足,则由方差的性质可得,故A错误;
对于选项B;由正态分布的图象的对称性可得,故B正确;
对于选项C:由于,所以变量y与x成负相关,故C正确.
对于选项D:越趋近于1,说明模型对数据的解释能力越强,拟合效果越好,故D正确.
13.(25-26高二下·上海·期中)已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
【答案】
【详解】,,
所以
14.(2026·湖北随州·一模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.得到数据如下表:
零件个数x
10
20
30
40
50
加工时间y(min)
53
65
71
76
85
根据上表可得经验回归方程中的,则经验回归方程中___________;据此估计,加工的零件个数为60时所花费的时间为__________min.
【答案】 47.5 92.5
【分析】由题中数据可得,,根据经验回归直线必过样本中心点可得,代入运算求解即可.
【详解】由题意可得,,
因为经验回归直线必过样本中心点,且,
则,解得,
即,当时,则,
故估计加工的零件个数为60时,所花费的时间为92.5 min.
15.(2026·湖南·一模)某科技公司统计了过去10年每年的研发投入(单位:亿元)和营业额(单位:亿元)的数据,如下表:
/亿元
12.1
12.5
11.3
12.4
13.1
11.5
11.0
11.3
12.6
12.2
/亿元
650
680
620
660
695
640
600
630
665
660
参考数据:,,,.
参考公式:相关系数.
(1)估计该公司平均每年的研发投入和平均每年的营业额;
(2)求样本的相关系数(精确到0.01);
(3)已知与的关系可以用线性回归模型进行拟合,若该公司今年投入13.5亿元用于研发,利用该模型预测该公司今年的营业额.
【答案】(1)12,650
(2)
(3)710亿元
【分析】(1)利用平均数的计算方法求和.
(2)将所给数据代入相关系数计算公式进行计算即可.
(3)根据线性回归方程必过样本中心点确定的值,再利用回归方程进行预测即可.
【详解】(1)平均每年的研发投入为
平均每年的营业额为
.
(2)将所给数据代入相关系数计算公式得
.
其中,所以.
(3)由题意知,回归直线过样本中心点,即,解得.
所以回归方程为.将代入回归方程,得,故预测该公司今年的营业额为710亿元.
16.(25-26高二下·浙江温州·期中)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第天的高度为ycm,测得一些数据如下表所示:
第天
1
2
3
4
5
高度
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,求出相关系数加以说明;
(2)求关于的回归直线方程,并预测第7天这株幼苗的高度.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【答案】(1)0.995,因为与1非常接近,故可用线性回归模型拟合与的关系
(2),第7天这株幼苗的高度为4.5cm
【详解】(1)由,
所以,
因为与1非常接近,故可用线性回归模型拟合与的关系;
(2),,
所以关于的回归直线方程为,
当时,,由此预测第7天这株幼苗的高度为4.5cm.
17.(25-26高三下·安徽淮北·月考)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【答案】(1)
(2).
(3)册
【分析】(1)因为散点图呈现的是非线性趋势,所以选择更合适;
(2)令,将转化为线性回归方程,利用最小二乘估计公式计算和,进而得到关于的回归方程;
(3)根据利润公式,结合回归方程列出不等式,求解不等式得到印刷数的取值范围,确定至少印刷的册数.
【详解】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
18.(25-26高三下·河南新乡·月考)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2);
(3)答案见解析
【分析】(1)根据题意,经比较可得最合适的函数模型;
(2)由(1)中模型可得,设,,则,利用公式可求后者,从而得到前者;
(3)根据回归方程可得相应的看法.
【详解】(1)根据题意,经比较可知,选择②()作为学习时间x和平均成绩y的回归类型最合适;
(2)对()两边取以e为底的对数可得,
设,则,
,所以,
故,即,
所以;
(3)此回归方程为关于学习时间的增函数,说明随着课后的学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加课后的学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长课后的学习时间来提高学习成绩就比较困难了,需要想别的办法.
1 / 1
学科网(北京)股份有限公司
$
8.2 一元线性回归模型及其应用
题型预览
题型一 根据散点图判断是否线性相关
题型二 样本中心点的相关问题
题型三 求回归直线方程
题型四 残差的计算
题型五 决定系数的计算及分析
题型六 非线性回归
知识清单
一元线性回归模型
为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
最小二乘法和经验回归方程
(1)有关概念
=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)计算公式
【注意】(1)经验回归直线过点()
(2)经验回归方程=x+中的表示x增加1个单位时,y的平均变化量为,而表示y不随x的变化而变化的部分
残差及残差分析
(1)对于响应变量Y,通过观测得到的数据称为观测值.通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.在残差图中,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(3)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差平方和与决定系数R2
(1)残差图法:在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
(3)决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越小,模型拟合效果越差,R2越大,模型拟合效果越好.
【注意】决定系数R2的取值范围是0≤R2≤1
刻画回归效果的三种方法
(1)残差图法:残差比较均匀地落在水平带状区域内,则说明选用的模型比较合适.
(3)决定系数R2法:R2= 越接近1,表明模型的拟合效果越好.
非线性回归分析
(1)非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
(2)非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
非线性回归问题的处理方法
(1)指数函数型y=eb x+a
①函数y=eb x+a的图象,如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=b ln x+a
①函数y=b ln x+a的图象,如图所示.
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
题型突破
题型一 根据散点图判断是否线性相关
1.(25-26高二下·辽宁沈阳·月考)如图所示,4个散点图中,不适合用线性回归模型拟合其中两个变量的是( ).
A.B.C. D.
2.(2026·上海闵行·二模)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
3.(24-25高三上·安徽滁州·月考)下表为2018年—2022年的中国数字经济规模(单位:万亿元):
年份
2018
2019
2020
2021
2022
年份代码x
1
2
3
4
5
中国数字经济规模y
31.3
35.8
39.2
45.5
50.2
则下列所给函数模型中比较适合这一数据关系的是( )
A. B.
C. D.
4.(24-25高二下·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
5.(25-26高三上·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
题型二 样本中心点的相关问题
6.(25-26高二下·内蒙古呼和浩特·月考)(多选)下列说法中正确的是(多选)( )
A.回归直线恒过样本点的中心.
B.两个变量线性相关性越强,则相关系数就越接近1.
C.在线性回归方程中,当变量每增加一个单位时,平均减少0.5个单位.
D.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变.
7.(25-26高二下·内蒙古呼和浩特·月考)(多选)下列关于回归分析的说法正确的是( )
A.相关系数的取值范围是,且越大,线性相关程度越强
B.回归直线必过样本中心点
C.残差平方和越小,说明模型的拟合效果越好
D.相关系数表示两个变量正相关,表示负相关
8.(25-26高二下·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
9.(2026·广东清远·二模)已知线性相关的两个变量的取值如表所示,如果其线性回归方程为,则( )
3
4
6
7
20
40
80
A.50 B.60 C.70 D.75
10.(25-26高二下·黑龙江大庆·期中)某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
11.(2025·江西萍乡·二模)为了研究与的线性相关关系,某同学收集了5组样本数据(如下表),利用最小二乘法得到关于的线性回归方程为,则下列说法正确的是( )
1
2
3
4
5
2
4
9
7
A.
B.这5组样本数据中,的分位数为4
C.当时,的预测值为10
D.去掉样本点后,与的样本相关系数必会改变
12.(25-26高二下·江西萍乡·期中)(多选)在一项关于学生体能测试的研究中,某研究小组随机选取了100名学生作为研究对象.他们记录了每位学生的日常锻炼时间(记为变量,单位:小时)与体能测试得分(记为变量,单位:分)的数据.通过对这100组成对数据进行统计分析,某学生计算出回归直线方程为,则下列说法正确的是( )
A.体能测试得分与日常锻炼时间正相关
B.该样本数据的相关系数为4.8
C.该样本数据中的所有点都可以不在该回归直线方程上
D.某学生的日常锻炼时间为2小时,则他的体能测试得分一定为82分
13.(2026·陕西商洛·二模)已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下对应数据:
4
6
7
8
根据上表可得经验回归方程,据此估计,当投入万元广告费时,销售额为( )
A.万元 B.万元 C.万元 D.万元
题型三 求回归直线方程
14.(25-26高二下·全国·期中)某研究分析学习时间(,小时)与考试成绩(,分)的关系,数据如下:
x
2
4
5
7
8
10
11
12
y
30
40
50
60
70
80
90
100
(1)求线性回归方程;
(2)在下检验x与y的线性相关性(已知).
15.(2026·河北沧州·二模)某人统计了2020-2024年某网站“双11”当天的交易额,统计结果如表:
年份
2020
2021
2022
2023
2024
年份代码
1
2
3
4
5
交易额百亿元
9
12
17
21
26
(1)请根据表中提供的数据,用样本相关系数说明与的线性相关程度;
(2)求出关于的经验回归方程,并预测2027年该网站“双11”当天的交易额.
附:在经验回归方程中,,,,
16.(25-26高二下·河南周口·月考)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
17.(25-26高二下·辽宁朝阳·期中)某高中,高二数学备课组对学生记忆力和判断力进行统计分析,所得数据如下表所示:
4
6
8
10
12
2
3
5
6
8
(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测记忆力为9的学生的判断力.
(参考公式:.
18.(2026·云南昭通·二模)新型AI模型是近年来针对数据降噪任务研发的算法工具,通过创新神经网络结构,优化传统模型难以处理的高噪声数据.实验人员用含噪声的图象数据对一种新型AI降噪模型进行实验,对使用该模型后,图象中的噪声残留量(单位:个/像素)进行检测,统计得到下表:
第轮迭代
1
2
3
4
5
噪声残留量(个/像素)
70
60
52
45
38
并计算得:.
(1)计算变量(迭代轮数)和变量(噪声残留量)的样本相关系数,并说明两变量线性的相关程度;
(2)若图象中的噪声残留量不高于个/像素,则说明数据降噪完成.用最小二乘法求关于的经验回归方程,并预测该AI模型至少需要迭代多少轮才可以完成降噪?
参考数据及公式:
样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:,.
题型四 残差的计算
19.(2026高三下·山东青岛·专题练习)已知线性相关的两个变量,的取值如表所示,如果其线性回归方程为,那么当时的残差为( )
3
4
6
7
20
40
60
A.2 B. C.3 D.
20.(25-26高二下·上海·期中)绝对零度()是一个只能逼近而不能达到的最低温度,那么这个数据是如何得到的?小张同学通过查询资料了解到:①气体温度和气体压强存在线性关系;②当气体压强为时,气体温度达到绝对零度.小张同学在实验时,记录了某种气体温度和气体压强一组相关数据:
数据
1
2
3
4
5
6
温度
4.07
16.69
29.42
45.67
57.06
73.05
压强
103.095
107.734
112.461
118.469
122.706
128.758
(1)用上表数据建立气体压强与气体温度的线性回归方程,若这组实验数据的拟合误差小于0.05,则认为得到的线性回归是理想的.求出回归方程(精确到0.001),并判断所得回归方程是否理想?附:拟合误差
(2)估计该次实验下绝对零度的数值.(精确到)
21.(25-26高二下·浙江舟山·期中)(多选)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:.
A.
B.用最小二乘法求得关于的线性回归直线方程为
C.由散点图知变量和正相关,相关系数的绝对值越接近0,表示x,y的线性相关程度越强
D.当时,残差为
22.(25-26高二下·重庆·期中)已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
23.(2026·江苏·二模)(多选)下列说法正确的是( )
A.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好
B.已知关于的回归方程为,则样本点的残差为
C.设为两个随机事件,,若,则事件与事件相互独立
D.若样本数据,,…,的方差为,则数据,,…,的方差为
题型五 决定系数的计算及分析
24.(25-26高二下·河南周口·月考)下列命题正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.线性回归直线必过样本数据的中心点;
25.(25-26高二下·黑龙江大庆·期中)(多选)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:,则下列说法正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的经验回归方程表示的直线至少经过样本中的一个点
C.若变量x与y之间的相关系数越接近1,相关性越强
D.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
26.(2026·广东广州·二模)某公司为了了解A商品销售收入(单位:万元)与广告支出(单位:万元)之间的关系,现收集的5组样本数据如下表所示,且经验回归方程为.
2
5
6
8
9
16
20
21
28
10.96
19.24
22
27.52
30.28
(1)求的值;
(2)现从这5组数据的残差中抽取2组进行分析(观测值减去预测值称为残差),记X表示抽到数据的残差为负的组数,求X的分布列和期望;
(3)已知,且当时,回归方程的拟合效果良好,试结合数据,判断经验回归方程的拟合效果是否良好.
27.(2026高三·浙江·专题练习)(多选)下列说法正确的是( )
A.数据的上四分位数为9
B.若,,且,则C,D相互独立
C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其回归直线方程为,若其中一个散点坐标为,则
D.将两个具有相关关系的变量的一组数据调整为,,…,,决定系数不变
(附: , ,)
题型六 非线性回归
28.(2026·湖南浙江·模拟预测)为研究某池塘中水生植物覆盖水塘的面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系.设,与的数据如表格所示,得到与的线性回归方程,则( )
3
4
6
7
2
2.5
4.5
7
A. B. C. D.
29.(25-26高二下·内蒙古呼和浩特·月考)某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
30.(2026高三下·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
31.(2026·辽宁沈阳·三模)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
32.(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
33.(25-26高二下·辽宁大连·月考)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
强化训练
1.(25-26高二下·河南南阳·月考)某研究小组收集了10组数据,计算得到相关系数,则以下结论最合理的是( )
A.与正相关且线性关系很强 B.与负相关且线性关系很强
C.与正相关但线性关系很弱 D.与负相关但线性关系很弱
2.(2026·安徽铜陵·模拟预测)已知变量和有较强的线性相关关系,根据下表中两个变量间的相关数据可以得到经验回归方程为,则( )
A.经验回归直线必过点
B.
C.当时,预测值
D.当时,样本点对应的残差为
3.(25-26高二下·河南南阳·期中)已知蝗虫的产卵量与温度的关系可以用模型(其中e为自然对数的底数)拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则当时,蝗虫的产卵量的估计值为( )
A. B. C. D.
4.(山东省济宁市2026届高考模拟考试数学试题)用模型拟合一组数据,令,若根据样本数据计算可得,,且与的经验回归方程为,则( )(参考数据,)
A.1.2 B.0.92 C.0.3 D.0.4
5.(25-26高三下·云南曲靖·月考)下列说法中不正确的是( )
A.一组数据的下四分位数为
B.在成对样本数据分析中相关系数,表示两个变量之间没有线性相关关系
C.根据线性回归方程得到预测值为时的观测值为,则残差为
D.将总体划分为两层,通过分层抽样,得到两层的样本平均数和样本方差分别为,和,,若,则总体方差
6.(25-26高三下·河北邯郸·月考)现有10个样本数据,,…,,可得经验回归方程为,且,若去掉一个数据点后,可以得到新的经验回归方程为,则实数的值为( )
A.1 B. C. D.2
7.(2026·山东德州·二模)(多选)下表是我国2021年至2025年生活垃圾无害化处理量(单位:亿吨)与年份代码(1-5分别对应2021-2025)的相关数据.根据表中数据求得关于的经验回归方程为,则( )
1
2
3
4
5
12
18
25
30
34
A.与正相关
B.回归直线过点
C.
D.预测2030年生活垃圾无害化处理量为60亿吨
8.(25-26高二下·黑龙江大庆·月考)(多选)下列命题中正确的是( )
A.决定系数越大,残差平方和越小,模型拟合效果越好
B.若回归方程为,则变量y与x成负相关
C.某校高三年级男生的身高(单位:cm)近似服从,随机选择一名该校高三年级的男生,则(若,则,)
D.样本相关系数的取值范围为,刻画了样本点集中于某条直线的程度,当时,只表明成对样本数据间没有线性相关关系
9.(2026·河南信阳·模拟预测)(多选)下列说法正确的有( )
A.若样本数据的方差为3,则数据的方差为27
B.设A,B为两个随机事件,若,则
C.在线性回归分析中,决定系数用来刻画拟合的效果,值越大,则模型的拟合效果越好
D.8人的成绩(单位:分)分别为81,82,84,84,85,86,88,90,则这8人成绩的上四分位数是85
10.(25-26高二下·江西赣州·期中)(多选)给出下列说法,其中正确的有( )
A.两个变量线性相关性越强,则相关系数r就越接近于1
B.离散型随机变量X服从两点分布,且,则
C.随机变量,若,则
D.用数字0,1,2,3,4组成的无重复数字的四位数中,偶数的个数为60
11.(2026·四川攀枝花·二模)(多选)某公司近5年的利润情况如下表所示:
第年
1
2
3
4
5
利润/亿元
2
3
4
5
7
利用最小二乘法计算数据,得到的经验回归方程为,则( )
A.变量与正相关 B.回归直线一定过点
C. D.预测该公司第7年的利润约为9亿元
12.(25-26高二下·浙江杭州·月考)(多选)下列结论正确的是( )
A.若随机变量,满足,则
B.若随机变量,且,则
C.若回归方程为,则变量y与x成负相关
D.线性回归分析可用决定系数判断模型拟合效果,越趋近于1,则拟合效果越好
13.(25-26高二下·上海·期中)已知、取值如表所示,从散点图分析,与线性相关,且,则__________.
0
1
3
4
0.9
1.9
3.2
4.4
14.(2026·湖北随州·一模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.得到数据如下表:
零件个数x
10
20
30
40
50
加工时间y(min)
53
65
71
76
85
根据上表可得经验回归方程中的,则经验回归方程中___________;据此估计,加工的零件个数为60时所花费的时间为__________min.
15.(2026·湖南·一模)某科技公司统计了过去10年每年的研发投入(单位:亿元)和营业额(单位:亿元)的数据,如下表:
/亿元
12.1
12.5
11.3
12.4
13.1
11.5
11.0
11.3
12.6
12.2
/亿元
650
680
620
660
695
640
600
630
665
660
参考数据:,,,.
参考公式:相关系数.
(1)估计该公司平均每年的研发投入和平均每年的营业额;
(2)求样本的相关系数(精确到0.01);
(3)已知与的关系可以用线性回归模型进行拟合,若该公司今年投入13.5亿元用于研发,利用该模型预测该公司今年的营业额.
16.(25-26高二下·浙江温州·期中)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第天的高度为ycm,测得一些数据如下表所示:
第天
1
2
3
4
5
高度
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,求出相关系数加以说明;
(2)求关于的回归直线方程,并预测第7天这株幼苗的高度.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
17.(25-26高三下·安徽淮北·月考)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
18.(25-26高三下·河南新乡·月考)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
1 / 1
学科网(北京)股份有限公司
$