内容正文:
第10讲:一元线性回归模型及其应用
【考点梳理】
· 考点一:散点图相关问题
· 考点二:回归方程的理解
· 考点三:根据回归方程求原数据的值
· 考点四:样本中心问题
· 考点五:根据回归方程进行数据估计
· 考点六:最小二乘法的理解
· 考点七:回归方程的计算
· 考点八:残差的计算
· 考点九:决定系数的计算和分析
· 考点十:最小乘二法和统计的综合问题
【知识梳理】
知识点一:一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
知识点二:最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
,=-.
知识点三:残差与残差分析
1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点四:对模型刻画数据效果的分析
1.残差图法
在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
2.残差平方和法:残差平方和越小,模型的拟合效果越好.
3.R2法:可以用R2=1-来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.
【题型归纳】
题型一:散点图相关问题
【典例1】.(25-26高三上·上海杨浦·期末)对变量、有观测数据,得散点图1;对变量、有观测数据,得散点图2.分别用、表示变量与、与之间的线性相关系数,则下列说法正确的是( ).
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【答案】D
【分析】根据散点图的分布的趋势和集中程度可得正确的选项.
【详解】对于图1,散点总体斜向上分布,故变量与呈现正相关,故排除B;
对于图2,散点总体斜向上分布,故变量与呈现负相关,故排除C;
图1中散点图分布较为集中,图2中的散点图分布较为分散,故,
故选:D.
【变式1】.(24-25高二下·北京东城·期末)对某种动物的三项指标,,进行调查研究.现有这种动物若干只,设每只动物的这三项指标为.若与的散点图如图1和图2所示,那么关于的散点图最合理的为( )
A.B.C.D.
【答案】A
【分析】利用排除法,分析可知指标,满足负相关,结合图象指标的范围分析判断即可.
【详解】因为指标,满足正相关,指标,满足负相关,
可知指标,满足负相关,故C错误;
且,可知BD错误;
故选:A.
【变式2】.(24-25高二下·河北·月考)已知5对数据的散点图如图,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
【答案】B
【分析】根据散点图的识别辨析、相关性、相关系数、残差平方和等概念对选项逐一判断即可.
【详解】由散点图可知,去掉点后,与的线性相关性加强,且为负相关,所以B正确,A错误;
由于与的线性相关性加强,所以残差平方和变小,所以C错误,
由于与的线性相关性加强,且为负相关,所以相关系数的绝对值变大,
而相关系数为负的,所以样本相关系数变小,所以D错误.
故选:B.
题型二:回归方程的理解
【典例2】.(24-25高二下·河南周口·开学考试)已知两个变量x与y对应关系如下表:
x
1
2
3
4
5
y
5
7.5
n
9
10.5
若y与x满足线性相关关系,且经验回归方程为,则下列说法正确的是( ).
A.y与x正相关 B.在处的残差为0.25
C. D.变量x每增加一个单位,y的值一定增加1.25个单位
【答案】A
【分析】利用样本中心在回归直线上求参数判断C;根据回归直线一次项系数判断A;计算残差判断B;由回归直线的实际意义判断D.
【详解】对于选项A,因为回归直线的斜率为,所以y与x正相关,故A正确;
对于选项B,当时,,所以在处的残差为,故B错误;
对于选项C,因为,所以,
所以,解得,故C错误;
对于选项D,变量x每增加一个单位,y的值很大可能增加1.25个单位,故D错误.
故选:A.
【变式1】.(24-25高二下·河南商丘·期末)已知两个变量与对应关系如下表:
1
2
3
4
5
5
7.5
9
10.5
若与满足线性相关关系,且经验回归方程为,则下列说法正确的是( )
A.与正相关
B.在处的残差为0.25
C.
D.变量每增加一个单位,的值一定增加1.25个单位
【答案】A
【分析】利用样本中心在回归直线上求参数判断C;根据回归直线一次项系数判断A;计算残差判断B;由回归直线的实际意义判断D.
【详解】由题设,,
所以,可得,又,即与正相关,A对,C错;
由时,,残差为,B错;
由回归方程说明随变化值的变化趋势,不能说变量每增加一个单位,的值一定增加1.25个单位,D错.
故选:A.
【变式2】.(2026·福建莆田·二模)为了探究六年级学生每日自主阅读时间与语文成绩的关系,某研究小组随机调查了50名学生,得到成对样本数据,其中表示每日自主阅读时间(单位:小时),表示语文成绩(单位:分).经计算得回归直线方程为.下列说法正确的是( )
A.该样本数据的相关系数为5.2
B.当阅读时间每增加1小时,语文成绩平均增加5.2分
C.该样本数据中,至少有一个点在回归直线上
D.若某学生每日阅读时间为2小时,则他的语文成绩一定为分
【答案】B
【分析】根据相关系数范围可以判断A;由回归系数定义可以判断B对;根据回归方程性质可以判断C,D.
【详解】对于A,相关系数取值范围是,故错误;
对于B,回归系数的含义是:当自变量每增加1个单位时,因变量平均增加的量。
这里表示每日自主阅读时间(小时),表示语文成绩(分),所以当阅读时间每增加1小时,语文成绩平均增加5.2分,故正确;
对于C,回归直线是对样本的拟合直线,不一定经过样本点,故错误;
对于D,当时,,为预测值,不是确定值,故错误.
题型三:根据回归方程求原数据的值
【典例3】.(2026·山东青岛·一模)已知变量,的统计数据如下,若与的回归直线方程为,则( )
2.8
3.3
5.0
6.7
7.2
2.6
4.0
5.1
5.4
A.2.5 B.2.7 C.2.9 D.3.1
【答案】C
【分析】先求出样本中心点坐标,代入回归直线方程,解方程即可.
【详解】由题意,可得,,
所以样本点的中心坐标为,
代入回归直线方程,可得,
解方程得.
【变式1】.(2025高二·全国·专题练习)在抗击新型冠状病毒肺炎(COVID-19)期间,有研究团队得到了一项研究成果,首次揭示了COVID-19患者发生急性呼吸窘迫综合征(ARDS)和从ARDS进展至死亡的危险因素,并首次提出发生ARDS的COVID-19患者使用甲强龙可能获益的观点.为了了解甲强龙的指标数据y与质量分数p(单位:%)之间的关系,随机统计了相关数据,如下表,由最小二乘法求得经验回归方程为.
p
6
10
14
18
22
y
62
x
44
28
14
现发现表中有一个数据x模糊不清,请你推断,该数据的值为( )
A.53 B.56 C.59 D.62
【答案】A
【分析】先分别求出和,再根据经验回归直线过点,代入回归方程计算即得.
【详解】由已知可得,,
因为经验回归直线过点,所以,解得.
故选:A.
【变式2】.(24-25高二下·山西·期末)某校当天的新增感冒人数与温差(单位:)的5组数据如下表:
5
7
8
9
11
9
17
20
由于保存不善,有两个数据模糊不清,用,代替,已知关于的经验回归方程为,则( )
A. B. C. D.
【答案】D
【分析】求出样本中心点,再利用回归方程即可求解.
【详解】依题意,,,
则,得,所以.
故选:D
题型四:样本中心问题
【典例4】.(2026·安徽六安·模拟预测)已知具有线性相关的两个变量之间的一组数据如表:
0
1
2
3
4
2.5
4.0
4.3
4.2
且回归直线方程是,则( )
A.6.2 B.6.3 C.6.4 D.6.5
【答案】D
【分析】求出样本中心点,再利用回归直线过样本中心点求解.
【详解】由数据表,得,
依题意,回归直线过点,则,
所以.
故选:D
【变式1】.(25-26高二上·辽宁辽阳·期末)已知变量x,y的数据如下:
x
3
4
6
7
y
2.5
3
m
5.9
若x与y的回归直线方程为,则( )
A.3.5 B.4 C.4.2 D.5
【答案】B
【分析】求出,,x与y的回归直线方程为过点,将代入计算得到的值.
【详解】由题意可得,,
则,解得.
故选:B.
【变式2】.(25-26高三上·河南郑州·期中)已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
【答案】D
【分析】利用回归直线方程必过样本中心点,可判断出A和D的正误;对B,代入回归方程,即可求解;对C,利用回归方程的系数的正负,即可判断正误.
【详解】对于A,因为变量和满足经验回归方程,
又,,所以,
解得,所以A正确;
对于B,因为变量和满足经验回归方程,
当时,,所以B正确;
对于C,因为变量和满足经验回归方程,
,所以变量和呈负相关,所以C正确;
对于D,由选项A知,,,该经验回归直线必过点,所以D错误.
故选:D.
题型五:根据回归方程进行数据估计
【典例5】.(25-26高二下·河南南阳·期中)已知蝗虫的产卵量与温度的关系可以用模型(其中e为自然对数的底数)拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则当时,蝗虫的产卵量的估计值为( )
A. B. C. D.
【答案】A
【详解】由表格数据知:,
,
代入,得,解得,
所以,即,
所以,当时,.
【变式1】.(25-26高二上·安徽淮北·期末)李华新开了一家便利店,开业第一周的营业收入(单位:千元)统计如下:
天数序号X
1
2
3
4
5
6
7
营业收入Y/千元
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因而模糊,但知道7天的营业收入的平均值是23.已知营业收入Y与天数序号X可以用线性回归方程拟合,且第7天的实际值比预测值小0.6,则预计第10天的营业收入是( )
A.38.4千元 B.44.8千元 C.46.2千元 D.48.2千元
【答案】D
【详解】由第7天的实际值是,所以预测值为35.6,得 ①,
因为回归直线经过中心点,又,,所以②,
联立①②,解得,,
所以预计第10天的营业收入(千元).
【变式2】.(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【答案】D
【分析】对于A,由回归方程可判断变量y与x的负相关;对于B,利用回归方程过可判断选项正误;对于C,由回归方程及残差定义可判断选项正误;对于D,由回归方程可得预测值.
【详解】对于A,因回归方程斜率为负值,则变量y与x负相关,故A正确;
对于B,,,
因回归方程过,则,故B正确;
对于C,当时,由B分析,,则残差为:
故C正确;
对于D,当,由B分析,,故D错误.
故选:D
题型六:最小二乘法的理解
【典例6】.(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】由最小二乘法的定义判断即可.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
即残差平方和最小.
故选:D
【变式1】.(22-23高二下·陕西西安·期末)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使( )最小.
A.总偏差平方和 B.残差平方和
C.回归平方和 D.竖直距离和
【答案】B
【分析】使用最小二乘法的定义进行求解.
【详解】最小二乘法求回归方程,是为了使残差平方和最小,B正确;其他选项错误.
故选:B
【变式2】.(2023·上海杨浦·二模)对成对数据、、…、用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【答案】D
【分析】由最小二乘法的求解即可知.
【详解】根据最小二乘法的求解可知:回归方程是为了使得每个数据与估计值之间的差的平方和最小,
故选:D
题型七:回归方程的计算
【典例7】.(25-26高二下·河南周口·月考)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【答案】(1),与完全负相关
(2)
(3)16元
【详解】(1),,
故,
故与完全负相关.
(2),
故,回归方程为.
(3)由题设,此时,故,故定价最高为16元.
【变式1】.(2026·江苏南京·一模)为研究昼夜温差(单位:)与某植物种子当日的百粒发芽数(单位:粒)之间的关系,实验室记录了6天的每日昼夜温差与种子当日的百粒发芽数,如下表所示:
日期编号
1
2
3
4
5
6
温差
9
13
11
15
10
14
百粒发芽数
23
28
26
31
25
29
(1)根据表中的数据,计算样本相关系数(精确到0.01);
(2)求百粒发芽数关于温差的经验回归方程,并估计昼夜温差为时,这种植物种子当日的百粒发芽数.
参考公式:相关系数,
,,
参考数据:,,,.
【答案】(1)
(2),
【分析】(1)根据条件,直接计算,即可求解;
(2)根据条件,直接求出,即可求出线性回归方程,再将代入,即可求解.
【详解】(1)相关系数.
(2)由题意得,,
所以,,
所以所求的经验回归方程是,
当时,,
故当昼夜温差为时,这种植物种子当日百粒发芽数为.
【变式2】.(25-26高二下·江西赣州·期中)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月11日至3月15日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月11日
3月12日
3月13日
3月14日
3月15日
温差
10
11
13
12
9
发芽数y(颗)
23
25
30
26
16
(1)从3月11日至3月15日中任选2天,记这两天中发芽的种子数超过25颗(不包含25颗)的天数为随机变量,求的分布列与期望;
(2)研究发现种子的发芽数与昼夜温差近似成线性关系,请你求出关于的线性回归方程.
附:回归方程中,,,
【答案】(1)
0
1
2
(2)
【分析】(1)列举随机变量的可能取值,计算对应概率可得分布列,根据期望公式计算可得;
(2)根据题中数据,结合线性回归方程公式即可求解.
【详解】(1)3月11日至3月15日发芽的种子数超过25颗(不包含25颗)的天数为2天,
随机变量的可能取值为,
,
所以随机变量的分布列为
0
1
2
则;
(2)由列表可知,
,
,
设回归方程为,
,
故所求方程为.
题型八:残差的计算
【典例8】.(2025·江西新余·模拟预测)某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
研发费用x
3.4
4.7
5
5.6
6.3
销售量y
15
16.9
19.2
18
20.9
根据表中数据可得经验回归方程为,则第三个样本点对应的残差为________.
【答案】1.2
【分析】由表格中的数据,根据平均数求得样本中心,代入回归方程可得参数的值,代入第三个样本点的值,集合残差的定义,可得答案.
【详解】由已知,得,,
所以,于是,
当时,,
因此,第三个样本点对应的残差为.
故答案为:.
【变式1】.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为________________.
【答案】0.5/
【分析】利用样本中心在回归直线上及残差的定义即可求解.
【详解】将代入,得,解得,
所以,
故当时,,
所以残差.
故答案为:0.5.
【变式2】.(22-23高三上·浙江宁波·期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
5.5
7
如果由表中数据可得经验回归直线方程为,那么,当时,残差为______.(注:残差=观测值-预测值)
【答案】/
【分析】先求出回归方程,再根据回归方程求出预测值,最后计算残差即可.
【详解】,
所以,
所以时,,
所以残差为.
故答案为:.
题型九:决定系数的计算和分析
【典例9】.(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
【答案】
【分析】根据回归直线方程必过样本中心点求出,即可求出,再根据决定系数公式求出.
【详解】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
【变式1】.(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则______________.(参考公式:决定系数)
【答案】0.96
【分析】依据决定系数的公式计算即可.
【详解】因为.
故答案为:.
【变式2】.(24-25高二下·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天)
1
2
3
4
5
订单数y(件)
13
21
45
55
66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
【答案】(1)
(2)①甲小组的线性回归模型拟合效果更好 ;②138件
【分析】(1)根据公式求,可得回归方程.
(2)计算甲小组模型的决定系数,比较决定系数的大小,可得结论;把代入线性回归方程,可预测该区域第10天的订单数.
【详解】(1)由题可知:
,,
,,
关于x的回归方程为.
(2)①由(1)知,从而有.
x
1
2
3
4
5
12
26
40
54
68
,
,
,
,从来看甲小组的线性回归模型拟合效果更好.
②当时,.预测第10天的订单数为138件.
题型十:最小乘二法和统计的综合问题
【典例10】.(2026高三下·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【答案】(1)选择模型②,理由见解析
(2),10人
【分析】(1)通过观察两个模型残差的波动幅度和集中程度来选择模型;
(2)结合所选模型,令,则可转化为线性回归模型,利用最小二乘法公式计算和;再将代回,得到关于的经验回归方程,进而求解的最小值.
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
【变式1】.(2026·湖南·一模)某科技公司统计了过去10年每年的研发投入(单位:亿元)和营业额(单位:亿元)的数据,如下表:
/亿元
12.1
12.5
11.3
12.4
13.1
11.5
11.0
11.3
12.6
12.2
/亿元
650
680
620
660
695
640
600
630
665
660
参考数据:,,,.
参考公式:相关系数.
(1)估计该公司平均每年的研发投入和平均每年的营业额;
(2)求样本的相关系数(精确到0.01);
(3)已知与的关系可以用线性回归模型进行拟合,若该公司今年投入13.5亿元用于研发,利用该模型预测该公司今年的营业额.
【答案】(1)12,650
(2)
(3)710亿元
【分析】(1)利用平均数的计算方法求和.
(2)将所给数据代入相关系数计算公式进行计算即可.
(3)根据线性回归方程必过样本中心点确定的值,再利用回归方程进行预测即可.
【详解】(1)平均每年的研发投入为
平均每年的营业额为
.
(2)将所给数据代入相关系数计算公式得
.
其中,所以.
(3)由题意知,回归直线过样本中心点,即,解得.
所以回归方程为.将代入回归方程,得,故预测该公司今年的营业额为710亿元.
【变式2】.(25-26高三下·山西朔州·月考)科研人员为研究白鼠在注射某种抗生素24小时后体内抗生素残留率与注射剂量之间的关系,测得一组实验数据如表:
剂量
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
残留率
0.07
0.12
0.18
0.25
0.28
0.30
0.35
0.45
(1)根据以上数据计算得样本相关系数,表明抗生素残留率与注射抗生素剂量的线性相关程度较高,请建立关于的经验回归方程;
(2)当数据对应的残差的绝对值时,称该数据为“正常数据”.现从这8个实验数据中随机抽取4个,用X表示抽到“正常数据”的个数,求的分布列及均值.
参考公式:经验回归方程中斜率和截距的最小二乘估计分别为:
,;参考数据:,.
【答案】(1)
(2)
X
0
1
2
3
4
均值为
【分析】(1)根据数据求出,根据公式即可求出答案;
(2)判断个数据中有多少个“正常数据”,再根据超几何分布公式即可列出分布列,利用期望公式即可求出均值.
【详解】(1)由表知,,
,
所以,
,
所以关于的经验回归方程为.
(2)由已知,
,
,
,
,
,
,
,
,
即有4组数据为“正常数据”,
所以X的可能取值为,
则,,
,,,
所以的分布列为:
X
0
1
2
3
4
P
故数学期望.
【双基达标】
一、单选题
1.(25-26高二下·河南周口·月考)下列命题正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.线性回归直线必过样本数据的中心点;
【答案】D
【分析】利用回归直线的性质,相关系数和决定系数的规定及残差分析的分析方式,逐项判断即可.
【详解】选项A:残差图中残差点所在的水平带状区域越宽,说明观测值与预报值之间的差距越大,数据分布越分散,因此回归方程的预报精确度就越差,所以选项A错误;
选项B:当相关系数时,说明两个变量正相关,所以选项B错误;
选项C:模型的决定系数越大,说明残差平方和越小,拟合效果越好,,所以模型甲的拟合效果更好,所以选项C错误;
选项D:回归直线的定义规定回归直线必过样本数据的中心点,所以选项D正确.
2.(25-26高二下·黑龙江大庆·期中)某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
【答案】B
【详解】因为,且,
所以,解得.
3.(25-26高二下·重庆·期中)已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
【答案】A
【分析】分别求修正前和修正后的样本点中心,再代入回归直线方程求解回归后的直线方程,再代入残差公式.
【详解】.因为,所以,因为经验回归方程过点,
所以,所以增加一个数据后的,,
设修正后的回归直线为,而修正后的回归直线过点,即 ,
所以,
解得,所以修正后的回归直线为 ,
所以数据 相对于修正后的回归直线的残差为 .
4.(25-26高二下·内蒙古呼和浩特·月考)某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
【答案】A
【分析】根据给定数据,利用最小二乘法求出关于的线性回归方程,进而求出关于的回归方程.
【详解】令,,由与呈线性相关关系,得线性回归方程,
则,,
因此,即,所以关于的回归方程为.
5.(25-26高二下·全国·课后作业)两个变量负相关时,散点图的特征是( )
A.点散布在从左下角到右上角的区域内
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点散布在从左上角到右下角的区域内
【答案】D
【分析】根据两个变量负相关时,散点图的特征进行判断即可.
【详解】有负相关关系的各点整体呈递减趋势,因此点应该散布在从左上角到右下角的区域内.
故选:D
6.(25-26高二上·陕西汉中·期末)茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
【答案】C
【分析】由已知表格中的数据,代入回归直线方程即可求解参数判断A,应用回归直线判断B,C,在回归方程中,将代入,求得值即可判断D.
【详解】由题知,.
代入,得出,
所以,A选项正确;
,变量和呈正相关,B选项正确;
由题知,,该经验回归方程必过点,C选项错误;
当时,,
故当某户家庭人口数为8时,预测该户茶产业的年收入为25.7万元,D选项正确;
故选:C
7.(25-26高二上·广西梧州·期末)为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
【答案】D
【分析】对于A:根据回归方程结合正相关的概念分析判断即可;对于B:根据线性回归方程过样本中心点运算求解;对于C:代入运算即可;对于D:根据相关系数的公式分析判断即可.
【详解】由题意可知:,,
则样本中心点为.
对于选项A:因回归方程斜率为正值,则变量与正相关,故A正确;
对于选项B:因为线性回归方程过样本中心点,
则,解得,故B正确;
对于选项C:由选项B可知:,
当时,的预估值为,故C正确;
对于选项D:由相关系数公式知,去掉样本中心点后,与的样本相关系数不会改变,故D错误.
故选:D.
8.(2026·四川宜宾·一模)对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
【答案】B
【分析】根据回归直线过样本中心点列方程求解即可.
【详解】由可知
,.
因为回归直线过样本中心点,即,
将其坐标代入方程可得,解得,
故选:B.
二、多选题
9.(25-26高二下·黑龙江大庆·期中)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:,则下列说法正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的经验回归方程表示的直线至少经过样本中的一个点
C.若变量x与y之间的相关系数越接近1,相关性越强
D.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
【答案】AC
【分析】根据回归直线的相关知识求解即可.
【详解】由拟合直线的特点可知,残差平方和越小的模型,拟合的效果越好,A选项正确;
由样本数据利用最小二乘法得到的经验回归方程表示的直线不一定经过样本中的一个点,但一定经过样本中心点,B选项错误;
由相关系数的概念可知,若变量x与y之间的相关系数越接近1,相关性越强,C选项正确;
由决定系数的概念可知,越大,说明模型的拟合效果越好,D选项错误.
10.(25-26高二下·内蒙古呼和浩特·月考)下列关于回归分析的说法正确的是( )
A.相关系数的取值范围是,且越大,线性相关程度越强
B.回归直线必过样本中心点
C.残差平方和越小,说明模型的拟合效果越好
D.相关系数表示两个变量正相关,表示负相关
【答案】BCD
【详解】A:因为相关系数的取值范围是,且越大,线性相关程度越强,所以本选项说法不正确;
B:因为回归直线必过样本中心点,所以本选项说法正确;
C:因为残差平方和越小,说明模型的拟合效果越好,所以本选项说法正确;
D:因为相关系数表示两个变量正相关,表示负相关,所以本选项说法正确;
11.(25-26高二下·浙江舟山·期中)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:.
A.
B.用最小二乘法求得关于的线性回归直线方程为
C.由散点图知变量和正相关,相关系数的绝对值越接近0,表示x,y的线性相关程度越强
D.当时,残差为
【答案】ABD
【详解】对于A,,,故A正确;
对于B,根据公式计算回归系数,
,
所以回归直线方程为,故B正确;
对于C,散点图如下所示,
由图可知,变量x和正相关,但相关系数越接近1,线性相关程度越强,
越接近0,相关程度越弱,故C错误;
对于D当时,预测值,实际值,
残差,故D正确.
12.(2026·广西崇左·一模)已知相关系数,y关于x的经验回归方程中斜率和截距的最小二乘估计公式分别为,,残差平方和为.已知变量x与变量y的部分数据,建立由最小二乘法得到的两个回归模型:以x为自变量,y为因变量,得出的经验回归方程为;以y为自变量,x为因变量,得出的经验回归方程为.若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量x的方差,则可知变量y的标准差
B.若不给定其他信息,则也可得知变量x与变量y各自的平均值
C.若不给定其他信息,则也可得知变量x与变量y的相关系数
D.若已知变量x的标准差,则可知以y为自变量的回归模型的残差平方和
【答案】ABC
【分析】A 选项通过推导可得,若已知变量x的方差,即可求得,进而代入前式求得,故正确;B 选项可通过联立两个回归方程的截距公式解出样本均值和,故正确;C 选项利用回归斜率乘积与相关系数的关系,结合斜率符号确定,故正确;D 选项因残差平方和需要原始数据或更多统计量,仅靠x的标准差无法计算,故错误。
【详解】对于C,由所给公式得,且回归系数为负数,故相关系数,C正确.
对于A,设变量x与变量y的标准差分别为,,
,,
标准差,
变形可得,
将其代入到得,
整理得,将其代入到,
整理得,代入已知数据得,
即,若已知变量x的方差,即可求得,进而代入上式求得,A正确.
对于B,经验回归直线经过样本中心点,
代入两个回归方程得与,解得,,
故不给定其他信息也可得知变量x与变量y各自的平均值,B正确.
对于D,设以y为自变量的经验回归方程为(其中),
则变量x的残差平方和为
,
由于样本量n未知,故无法算出残差平方和的具体数值,D错误.
13.(25-26高二下·河南南阳·月考)对于变量X,Y,经过随机抽样获得成对数据(,2,3,…,10),且,利用最小二乘法得到Y关于X的线性回归方程为,且X与Y的相关系数,则下列结论正确的是( )
A.r越大,X与Y的线性相关性越强
B.若,则
C.若,则
D.若样本点(,2,3,…,10)都在回归直线上,则
【答案】AD
【分析】根据的性质即可求解ABD,根据样本中心在直线上,可求解C.
【详解】由于可得,则,
对于A, r的绝对值越接近1,由于,故的值越大,X与Y的线性相关性越强,故A正确,
对于C,当时,,则,故C错误,
对于D, 若样本点(,2,3,…,10)都在回归直线上,且,则,D正确,
对于B, 当时,无法确定的值,B错误,
三、填空题
14.(25-26高二下·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
【答案】
【详解】由题意可得,
,
因为回归直线方程经过点,
所以.
15.(2026·辽宁抚顺·一模)若根据样本数据得到的回归直线方程为,且,,则______.
【答案】
【详解】由题意得,
则,
则样本中心点为,将其代入到,
即,解得.
16.(2027高三·全国·专题练习)如图,由观测数据的散点图可知,与的关系可以用模型拟合,设,利用最小二乘法求得关于的回归方程为.已知,,则________.
【答案】1
【分析】先通过对数变换将非线性回归转化为线性回归,求出变换后变量的样本中心点,再根据回归直线过样本中心点列出方程,解出回归系数.
【详解】由可得,由可得
,
由回归方程必过样本中心点,即过点,所以,解得.
故答案为:.
17.(25-26高二下·全国·课后作业)已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时,________.
【答案】7
【分析】利用回归直线方程过样本中心点,可求得样本中心点为,又根据除去两组成对样本数据后的经验回归直线的斜率估计值为,可求得经验回归直线方程,进而代入数据可求得的估计值.
【详解】由样本数据点集求得的经验回归方程为,且,
所以,故数据的样本中心点为,
去掉,,
重新求得的经验回归直线的斜率估计值为,
经验回归方程设为,代入,求得,
所以经验回归直线的方程为:,将代入经验回归方程,求得的估计值为.
故答案为:7.
18.(25-26高三上·河北邢台·开学考试)一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则__________,__________.
【答案】
【分析】两边同时取对数,求得,结合,求得,得到的值,再由,求得,结合,即可求解.
【详解】由,两边同时取对数,可得,
因为变换后的线性回归方程为,可得,
即,所以,
又因为,且,
所以,
因为,可得,所以.
故答案为:;.
四、解答题
19.(25-26高二下·浙江温州·期中)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第天的高度为ycm,测得一些数据如下表所示:
第天
1
2
3
4
5
高度
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,求出相关系数加以说明;
(2)求关于的回归直线方程,并预测第7天这株幼苗的高度.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
【答案】(1)0.995,因为与1非常接近,故可用线性回归模型拟合与的关系
(2),第7天这株幼苗的高度为4.5cm
【详解】(1)由,
所以,
因为与1非常接近,故可用线性回归模型拟合与的关系;
(2),,
所以关于的回归直线方程为,
当时,,由此预测第7天这株幼苗的高度为4.5cm.
20.(25-26高二下·江西吉安·期中)随机抽取某地7家超市,得到其广告支出与销售额数据如下:
超市
广告支出(x/万元)
1
2
3
5
8
10
13
销售额(y/万元)
20
30
40
40
50
50
50
(1)计算广告支出与销售额之间的相关系数(结果保留两位小数);
(2)根据以上数据建立销售额与广告支出的经验回归方程,并估计当广告支出为20万元时的销售额.
参考数据及公式:,,,,
相关系数,一元回归直线方程中.
【答案】(1)
(2),销售额约为71.5万元
【分析】(1)首先计算,再根据数据,代入相关系数公式求解;
(2)根据公式和数据,计算和,求解线性回归方程,再代入,计算预测值.
【详解】(1)由题意可得,
,
所以.
(2)由题意可得,,
所以销售额与广告支出的经验回归方程为,
当时,,
故当广告支出为20万元时的销售额约为71.5万元.
21.(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【分析】(1)利用函数①②③的性质及表中的数据,即可求解;
(2)先将非线性回归方程转化成线性回归方程,再根据题设条件,利用最小二乘法,即可求解.
【详解】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
22.(2026·江苏·一模)某兴趣小组研究昼夜温差大小与患感冒人数多少之间的关系,他们到气象局和医院抄录了1~7月份每月5日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期
1月5日
2月5日
3月5日
4月5日
5月5日
6月5日
7月5日
昼夜温差
10
11
13
12
8
7
6
感冒人数
23
25
29
26
16
13
9
该兴趣小组确定的研究方案是:先从这7组数据中选取2组,用剩下的5组数据求经验回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据是不相邻的两个月的概率;
(2)若该小组选取的是1月与6月的两组数据,请根据剩下5个月份的数据:
①求出关于的经验回归方程;
②若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的经验回归方程是理想的,问:该小组所得经验回归方程是否理想?说明理由.
附:
【答案】(1)
(2)①;②是理想的,理由见解析
【分析】(1)利用组合数和对立事件概率公式直接求解即可;
(2)①利用最小二乘法直接求解即可;
②分别将和代入回归直线方程,由此可得预估值,与检验数据之差的绝对值均不超过2可确定结论.
【详解】(1)记事件为“选取的2组数据是不相邻的两个月”,
则
(2)①由题意,,.
1
3
2
4
8
5
则,
即,
所以关于的经验回归方程为.
②当时,;
当时,.
所以该小组所得经验回归方程是理想的.
23.(25-26高二下·辽宁大连·月考)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
2
学科网(北京)股份有限公司
$
第10讲:一元线性回归模型及其应用
【考点梳理】
· 考点一:散点图相关问题
· 考点二:回归方程的理解
· 考点三:根据回归方程求原数据的值
· 考点四:样本中心问题
· 考点五:根据回归方程进行数据估计
· 考点六:最小二乘法的理解
· 考点七:回归方程的计算
· 考点八:残差的计算
· 考点九:决定系数的计算和分析
· 考点十:最小乘二法和统计的综合问题
【知识梳理】
知识点一:一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
知识点二:最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
,=-.
知识点三:残差与残差分析
1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点四:对模型刻画数据效果的分析
1.残差图法
在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
2.残差平方和法:残差平方和越小,模型的拟合效果越好.
3.R2法:可以用R2=1-来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.
【题型归纳】
题型一:散点图相关问题
【典例1】.(25-26高三上·上海杨浦·期末)对变量、有观测数据,得散点图1;对变量、有观测数据,得散点图2.分别用、表示变量与、与之间的线性相关系数,则下列说法正确的是( ).
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
【变式1】.(24-25高二下·北京东城·期末)对某种动物的三项指标,,进行调查研究.现有这种动物若干只,设每只动物的这三项指标为.若与的散点图如图1和图2所示,那么关于的散点图最合理的为( )
A.B.C.D.
【变式2】.(24-25高二下·河北·月考)已知5对数据的散点图如图,若去掉点,则下列说法正确的是( )
A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强
C.残差平方和变大 D.样本相关系数r变大
题型二:回归方程的理解
【典例2】.(24-25高二下·河南周口·开学考试)已知两个变量x与y对应关系如下表:
x
1
2
3
4
5
y
5
7.5
n
9
10.5
若y与x满足线性相关关系,且经验回归方程为,则下列说法正确的是( ).
A.y与x正相关 B.在处的残差为0.25
C. D.变量x每增加一个单位,y的值一定增加1.25个单位
【变式1】.(24-25高二下·河南商丘·期末)已知两个变量与对应关系如下表:
1
2
3
4
5
5
7.5
9
10.5
若与满足线性相关关系,且经验回归方程为,则下列说法正确的是( )
A.与正相关
B.在处的残差为0.25
C.
D.变量每增加一个单位,的值一定增加1.25个单位
【变式2】.(2026·福建莆田·二模)为了探究六年级学生每日自主阅读时间与语文成绩的关系,某研究小组随机调查了50名学生,得到成对样本数据,其中表示每日自主阅读时间(单位:小时),表示语文成绩(单位:分).经计算得回归直线方程为.下列说法正确的是( )
A.该样本数据的相关系数为5.2
B.当阅读时间每增加1小时,语文成绩平均增加5.2分
C.该样本数据中,至少有一个点在回归直线上
D.若某学生每日阅读时间为2小时,则他的语文成绩一定为分
题型三:根据回归方程求原数据的值
【典例3】.(2026·山东青岛·一模)已知变量,的统计数据如下,若与的回归直线方程为,则( )
2.8
3.3
5.0
6.7
7.2
2.6
4.0
5.1
5.4
A.2.5 B.2.7 C.2.9 D.3.1
【变式1】.(2025高二·全国·专题练习)在抗击新型冠状病毒肺炎(COVID-19)期间,有研究团队得到了一项研究成果,首次揭示了COVID-19患者发生急性呼吸窘迫综合征(ARDS)和从ARDS进展至死亡的危险因素,并首次提出发生ARDS的COVID-19患者使用甲强龙可能获益的观点.为了了解甲强龙的指标数据y与质量分数p(单位:%)之间的关系,随机统计了相关数据,如下表,由最小二乘法求得经验回归方程为.
p
6
10
14
18
22
y
62
x
44
28
14
现发现表中有一个数据x模糊不清,请你推断,该数据的值为( )
A.53 B.56 C.59 D.62
【变式2】.(24-25高二下·山西·期末)某校当天的新增感冒人数与温差(单位:)的5组数据如下表:
5
7
8
9
11
9
17
20
由于保存不善,有两个数据模糊不清,用,代替,已知关于的经验回归方程为,则( )
A. B. C. D.
题型四:样本中心问题
【典例4】.(2026·安徽六安·模拟预测)已知具有线性相关的两个变量之间的一组数据如表:
0
1
2
3
4
2.5
4.0
4.3
4.2
且回归直线方程是,则( )
A.6.2 B.6.3 C.6.4 D.6.5
【变式1】.(25-26高二上·辽宁辽阳·期末)已知变量x,y的数据如下:
x
3
4
6
7
y
2.5
3
m
5.9
若x与y的回归直线方程为,则( )
A.3.5 B.4 C.4.2 D.5
【变式2】.(25-26高三上·河南郑州·期中)已知变量和满足经验回归方程,且变量和之间的一组相关数据如右表所示,则下列说法错误的是( )
5
6
9
12
8
7
2.4
A. B.当时,
C.变量和呈负相关 D.该经验回归直线必过点
题型五:根据回归方程进行数据估计
【典例5】.(25-26高二下·河南南阳·期中)已知蝗虫的产卵量与温度的关系可以用模型(其中e为自然对数的底数)拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则当时,蝗虫的产卵量的估计值为( )
A. B. C. D.
【变式1】.(25-26高二上·安徽淮北·期末)李华新开了一家便利店,开业第一周的营业收入(单位:千元)统计如下:
天数序号X
1
2
3
4
5
6
7
营业收入Y/千元
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因而模糊,但知道7天的营业收入的平均值是23.已知营业收入Y与天数序号X可以用线性回归方程拟合,且第7天的实际值比预测值小0.6,则预计第10天的营业收入是( )
A.38.4千元 B.44.8千元 C.46.2千元 D.48.2千元
【变式2】.(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x
1
2
3
4
5
生产能耗y/吨
5
4.5
4
3.5
2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
题型六:最小二乘法的理解
【典例6】.(22-23高二下·上海奉贤·期中)用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
【变式1】.(22-23高二下·陕西西安·期末)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使( )最小.
A.总偏差平方和 B.残差平方和
C.回归平方和 D.竖直距离和
【变式2】.(2023·上海杨浦·二模)对成对数据、、…、用最小二乘法求回归方程是为了使( )
A. B.
C.最小 D.最小
题型七:回归方程的计算
【典例7】.(25-26高二下·河南周口·月考)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【变式1】.(2026·江苏南京·一模)为研究昼夜温差(单位:)与某植物种子当日的百粒发芽数(单位:粒)之间的关系,实验室记录了6天的每日昼夜温差与种子当日的百粒发芽数,如下表所示:
日期编号
1
2
3
4
5
6
温差
9
13
11
15
10
14
百粒发芽数
23
28
26
31
25
29
(1)根据表中的数据,计算样本相关系数(精确到0.01);
(2)求百粒发芽数关于温差的经验回归方程,并估计昼夜温差为时,这种植物种子当日的百粒发芽数.
参考公式:相关系数,
,,
参考数据:,,,.
【变式2】.(25-26高二下·江西赣州·期中)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月11日至3月15日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月11日
3月12日
3月13日
3月14日
3月15日
温差
10
11
13
12
9
发芽数y(颗)
23
25
30
26
16
(1)从3月11日至3月15日中任选2天,记这两天中发芽的种子数超过25颗(不包含25颗)的天数为随机变量,求的分布列与期望;
(2)研究发现种子的发芽数与昼夜温差近似成线性关系,请你求出关于的线性回归方程.
附:回归方程中,,,
题型八:残差的计算
【典例8】.(2025·江西新余·模拟预测)某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
研发费用x
3.4
4.7
5
5.6
6.3
销售量y
15
16.9
19.2
18
20.9
根据表中数据可得经验回归方程为,则第三个样本点对应的残差为________.
【变式1】.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为________________.
【变式2】.(22-23高三上·浙江宁波·期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
5.5
7
如果由表中数据可得经验回归直线方程为,那么,当时,残差为______.(注:残差=观测值-预测值)
题型九:决定系数的计算和分析
【典例9】.(2024·广东广州·一模)某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
【变式1】.(23-24高二下·湖北十堰·期末)已知一系列样本点满足,,由最小二乘法得到与的回归方程,现用决定系数来判断拟合效果(越接近1,拟合效果越好),若,则______________.(参考公式:决定系数)
【变式2】.(24-25高二下·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天)
1
2
3
4
5
订单数y(件)
13
21
45
55
66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
题型十:最小乘二法和统计的综合问题
【典例10】.(2026高三下·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【变式1】.(2026·湖南·一模)某科技公司统计了过去10年每年的研发投入(单位:亿元)和营业额(单位:亿元)的数据,如下表:
/亿元
12.1
12.5
11.3
12.4
13.1
11.5
11.0
11.3
12.6
12.2
/亿元
650
680
620
660
695
640
600
630
665
660
参考数据:,,,.
参考公式:相关系数.
(1)估计该公司平均每年的研发投入和平均每年的营业额;
(2)求样本的相关系数(精确到0.01);
(3)已知与的关系可以用线性回归模型进行拟合,若该公司今年投入13.5亿元用于研发,利用该模型预测该公司今年的营业额.
【变式2】.(25-26高三下·山西朔州·月考)科研人员为研究白鼠在注射某种抗生素24小时后体内抗生素残留率与注射剂量之间的关系,测得一组实验数据如表:
剂量
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
残留率
0.07
0.12
0.18
0.25
0.28
0.30
0.35
0.45
(1)根据以上数据计算得样本相关系数,表明抗生素残留率与注射抗生素剂量的线性相关程度较高,请建立关于的经验回归方程;
(2)当数据对应的残差的绝对值时,称该数据为“正常数据”.现从这8个实验数据中随机抽取4个,用X表示抽到“正常数据”的个数,求的分布列及均值.
参考公式:经验回归方程中斜率和截距的最小二乘估计分别为:
,;参考数据:,.
【答案】(1)
(2)
【双基达标】
一、单选题
1.(25-26高二下·河南周口·月考)下列命题正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
B.当相关系数时,两个变量负相关;
C.甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好;
D.线性回归直线必过样本数据的中心点;
2.(25-26高二下·黑龙江大庆·期中)某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
3.(25-26高二下·重庆·期中)已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
4.(25-26高二下·内蒙古呼和浩特·月考)某企业研究年宣传费(万元)对年利润(万元)的影响,得到近5年的数据如下:
1
2
3
4
5
4
7
12
20
33
经计算:,,令,,,,,,经分析.与呈线性相关关系,用最小二乘法求得线性回归方程,则关于的回归方程为( )(参考公式:,)
A. B. C. D.
5.(25-26高二下·全国·课后作业)两个变量负相关时,散点图的特征是( )
A.点散布在从左下角到右上角的区域内
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点散布在从左上角到右下角的区域内
6.(25-26高二上·陕西汉中·期末)茶产业不仅是产业发展的新引擎,更是实现乡村振兴的关键力量.某山区农村茶产业合作社统计了村民每户家庭人口数与每户茶产业年收入的情况,已知变量和满足经验回归方程,且变量和一组相关数据统计结果如下表:
每户家庭人口数(人)
3
4
5
6
每户茶产业年收入(万元)
5
8
17
则下列说法错误的是( )
A.
B.变量和呈正相关
C.该经验回归方程必过点
D.若某户家庭人口数为8时,预测该户茶产业的年收入为万元
7.(25-26高二上·广西梧州·期末)为了研究关于的线性相关关系,收集了5组样本数据(见下表).若已求得一元线性回归方程,则下列选项中不正确的是( )
1
2
3
4
5
0.5
0.9
1
1.1
1.5
A.由题中数据可知,变量与正相关
B.
C.当时,的预估值为2.1
D.去掉样本点后,与的样本相关系数必会改变
8.(2026·四川宜宾·一模)对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
二、多选题
9.(25-26高二下·黑龙江大庆·期中)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:,则下列说法正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的经验回归方程表示的直线至少经过样本中的一个点
C.若变量x与y之间的相关系数越接近1,相关性越强
D.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
10.(25-26高二下·内蒙古呼和浩特·月考)下列关于回归分析的说法正确的是( )
A.相关系数的取值范围是,且越大,线性相关程度越强
B.回归直线必过样本中心点
C.残差平方和越小,说明模型的拟合效果越好
D.相关系数表示两个变量正相关,表示负相关
11.(25-26高二下·浙江舟山·期中)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:.
A.
B.用最小二乘法求得关于的线性回归直线方程为
C.由散点图知变量和正相关,相关系数的绝对值越接近0,表示x,y的线性相关程度越强
D.当时,残差为
12.(2026·广西崇左·一模)已知相关系数,y关于x的经验回归方程中斜率和截距的最小二乘估计公式分别为,,残差平方和为.已知变量x与变量y的部分数据,建立由最小二乘法得到的两个回归模型:以x为自变量,y为因变量,得出的经验回归方程为;以y为自变量,x为因变量,得出的经验回归方程为.若两个模型的计算均无误,则下列判断正确的是( )
A.若已知变量x的方差,则可知变量y的标准差
B.若不给定其他信息,则也可得知变量x与变量y各自的平均值
C.若不给定其他信息,则也可得知变量x与变量y的相关系数
D.若已知变量x的标准差,则可知以y为自变量的回归模型的残差平方和
13.(25-26高二下·河南南阳·月考)对于变量X,Y,经过随机抽样获得成对数据(,2,3,…,10),且,利用最小二乘法得到Y关于X的线性回归方程为,且X与Y的相关系数,则下列结论正确的是( )
A.r越大,X与Y的线性相关性越强
B.若,则
C.若,则
D.若样本点(,2,3,…,10)都在回归直线上,则
三、填空题
14.(25-26高二下·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
15.(2026·辽宁抚顺·一模)若根据样本数据得到的回归直线方程为,且,,则______.
16.(2027高三·全国·专题练习)如图,由观测数据的散点图可知,与的关系可以用模型拟合,设,利用最小二乘法求得关于的回归方程为.已知,,则________.
17.(25-26高二下·全国·课后作业)已知组成对样本数据确定的经验回归方程为且,通过残差分析,发现两组成对样本数据,误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为,则当时,________.
18.(25-26高三上·河北邢台·开学考试)一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则__________,__________.
四、解答题
19.(25-26高二下·浙江温州·期中)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第天的高度为ycm,测得一些数据如下表所示:
第天
1
2
3
4
5
高度
1.3
1.7
2.2
2.8
3.5
(1)由表中数据可看出,可用线性回归模型拟合与的关系,求出相关系数加以说明;
(2)求关于的回归直线方程,并预测第7天这株幼苗的高度.
参考数据:.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘估计公式分别为.
20.(25-26高二下·江西吉安·期中)随机抽取某地7家超市,得到其广告支出与销售额数据如下:
超市
广告支出(x/万元)
1
2
3
5
8
10
13
销售额(y/万元)
20
30
40
40
50
50
50
(1)计算广告支出与销售额之间的相关系数(结果保留两位小数);
(2)根据以上数据建立销售额与广告支出的经验回归方程,并估计当广告支出为20万元时的销售额.
参考数据及公式:,,,,
相关系数,一元回归直线方程中.
21.(25-26高二下·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
22.(2026·江苏·一模)某兴趣小组研究昼夜温差大小与患感冒人数多少之间的关系,他们到气象局和医院抄录了1~7月份每月5日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期
1月5日
2月5日
3月5日
4月5日
5月5日
6月5日
7月5日
昼夜温差
10
11
13
12
8
7
6
感冒人数
23
25
29
26
16
13
9
该兴趣小组确定的研究方案是:先从这7组数据中选取2组,用剩下的5组数据求经验回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据是不相邻的两个月的概率;
(2)若该小组选取的是1月与6月的两组数据,请根据剩下5个月份的数据:
①求出关于的经验回归方程;
②若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的经验回归方程是理想的,问:该小组所得经验回归方程是否理想?说明理由.
附:
23.(25-26高二下·辽宁大连·月考)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
2
学科网(北京)股份有限公司
$