内容正文:
【考点通关】2025-2026学年高二数学高频考点与解题策略(人教A版2019选择性必修第三册)
专题14 一元线性回归模型及其应用8种常见考法归类(55题)
学科网(北京)股份有限公司1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
考点一 根据散点图判断线性相关
考点二 由散点图求近似回归直线
考点三 求经验回归方程
考点四 样本中心的计算及应用
考点五 用回归直线方程对总体进行估计
考点六 残差分析
考点七 求相关指数
考点八 非线性回归
知识点1 一元线性回归模型
(1)一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)随机误差
在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程.
线性回归模型的完整表达式为 , 在此模型中,随机误差的方差越小,用预报真实值的精度越高.
知识点2 最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
,=-.
思考1 经验回归方程一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
答案 不一定.
备注 ①经验回归直线一定过点,点通常称为样本点的中心;
②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是.
③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位.
知识点3 残差与残差分析
1.残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为,方差为的随机变量的观测值.
知识点4 对模型刻画数据效果的分析
1.残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
2.残差平方和法
残差平方和越小,模型的拟合效果越好.
3.R2法
在回归分析中,可以用来刻画回归的效果,它表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.
模型的拟合效果用相关指数来表示,,表达式中,与经验回归方程无关,残差平方和与经验回归方程有关,因此,越大,意味着残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差
注:决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
策略方法
1.求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
2.刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和越小,模型的拟合效果越好.
(3)R2法:越接近1,表明模型的拟合效果越好.
3.非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示;
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示;
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
考点一 根据散点图判断线性相关
1.(2026·上海闵行·模拟预测)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
【答案】D
【详解】对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:两个变量不具有线性相关性,故B错误;
对于C:两个变量之间的关系为负相关关系;故C错误;
对于D:两个变量之间的关系为正相关关系,且散点图中的点分布在一条直线附近,线性相关程度较高;故D正确.
2.(2026高二·辽宁沈阳·月考)如图所示,4个散点图中,不适合用线性回归模型拟合其中两个变量的是( ).
A. B.
C. D.
【答案】A
【详解】选项A的散点分布杂乱,没有明显的线性趋势,即散点不集中在一条直线附近,因此不适合用线性回归模型拟合;
选项B、C、D的散点都大致分布在一条直线附近,存在明显线性相关关系,适合线性回归模型拟合.
3.(2026高二·全国·课堂例题)10对中国父子的身高(英寸)如下:
父亲身高()
60
62
64
65
66
67
68
70
72
74
儿子身高()
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
试根据上述资料:
(1)画出散点图;
(2)变量和之间是否具有线性关系?
(3)人们常说,父亲高,儿子肯定不矮,你赞成这种说法吗?
【答案】(1)作图见解析
(2)有线性相关关系
(3)不赞成
【分析】(1)以父亲身高为轴,儿子身高为轴建立直角坐标系,作图即可.
(2)根据散点图观察即可得到结论.
(3)根据相关关系与绝对的因果关系辨析即可.
【详解】(1)散点图如下:
(2)观察散点图中点的分布可以看出,这些点在一条直线的附近分布,所以变量和之间具有线性关系.
(3)不赞成这种说法,因为父亲身高与儿子身高是相关关系而非绝对的因果关系,儿子身高还受营养、环境等其他因素影响.
考点二 由散点图求近似回归直线
4.(2026高二·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【详解】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
5.(2026高二·河北沧州·期末)如图所示的散点图中,可选取的拟合曲线为( )
A. B.
C. D.
【答案】BD
【分析】根据给定的散点图的形状,结合二次函数和指数函数的图象,即可求解.
【详解】由题意,从曲线上考虑.曲线的形状和过的部分图象类似,
结合选项B、D符合题意.
故选:BD.
6.(2026高二·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【答案】B
【分析】由散点图的变化趋势,结合四个选项中函数的单调性即可得结论.
【详解】由图可知,图象随着x的增大而增高,且增长速度越来越快,
结合选项,可判断最适宜作为感染人数y和时间x的回归方程.
故选:B
7.(2026高三·河南·专题练习)已知关于变量有相关关系,由观测数据得到的样本数据散点图如图所示,则该组观测数据中关于的回归方程可能是( )
A. B.
C. D.
【答案】D
【分析】根据数据散点图的单调性,结合选项中的函数,逐项判定,即可求解.
【详解】由散点图可知,所求回归方程先减后增,选项中A,B均为定义域上的增函数,不符合题意;
选项C中的函数图象为开口向下的抛物线,不符合题意;
而选项D中的函数图象增减性与散点图符合题意,故D正确.
故选:D.
考点三 求经验回归方程
8.(2026高二·全国·课后作业)一个车间为了规定工时,需要确定加工零件所花费的时间,为此进行了5次试验,测得的数据如下:
零件数个
10
20
30
40
50
加工时间分钟
62
68
75
81
89
如果与线性相关,求回归直线方程;
附:,.
【答案】
【详解】根据题中公式,结合表中数据进行运算求解即可;
由题中数据得,,
,
,
,.
因为,,
故所求的回归直线方程为.
9.(2026高二·辽宁朝阳·期中)某高中,高二数学备课组对学生记忆力和判断力进行统计分析,所得数据如下表所示:
4
6
8
10
12
2
3
5
6
8
(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测记忆力为9的学生的判断力.
(参考公式:.
【答案】(1);
(2)
【详解】(1),,
,
则,
所以关于的线性回归方程为;
(2)中,令得,
预测记忆力为9的学生的判断力为.
10.(2026·陕西西安·模拟预测)随着新能源产业的发展,我市近年来新能源汽车保有量快速增长,为了研究我市充电桩建设的情况,能源部门收集到了2021年到2025年充电桩数量(单位:万个),为方便研究,年份代码用表示(用分别表示2021年,2022年,…,2025年),具体参考数据如下表:
统计量
数值
15
21
55
72.6
(1)请根据表中数据,建立关于的回归直线方程;
(2)现对该市某区域现有的9个充电桩进行检查,其中4个为快充桩,随机抽取3个充电桩进行检查,记抽到的快充桩个数为,求的分布列及均值.
(参考公式:)
【答案】(1);
(2)的分布列为:
0
1
2
3
均值.
【分析】(1)代入回归直线方程的计算公式计算回归直线方程;
(2)根据题意可以看出服从超几何分布,根据超几何分布的概率计算公式可得到的分布列及均值.
【详解】(1)由题意可得:;;
故;
;
则关于的回归直线方程为:.
(2)由题意知,随机变量的取值为:0,1,2,3;则:
;
;
;
故的分布列为:
0
1
2
3
所以随机变量的均值.
11.(2026·陕西榆林·模拟预测)下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆):
月份
1
2
3
4
5
6
销售量
5.1
6.6
7.0
7.6
9.8
若关于的经验回归方程为,且相关系数.
(1)求的值(精确到0.01);
(2)求的值(精确到0.1).
附:,相关系数.
参考数据:,.
【答案】(1)0.86
(2)8.6
【分析】(1)根据相关系数公式、的求解公式,结合题中数据进行求解即可;
(2)根据在回归直线上进行求解即可.
【详解】(1)由题意得,
,
所以,
所以,
所以.
(2)由(1)知,关于的经验回归方程为,
,,
因为在回归直线上,所以,
所以.
12.(2026高二·河南周口·月考)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
【答案】(1),与完全负相关
(2)
(3)16元
【详解】(1),,
故,
故与完全负相关.
(2),
故,回归方程为.
(3)由题设,此时,故,故定价最高为16元.
13.(2026高三·河南·月考)某商场对商品售卖的情况进行统计,已知该商场共六层.
(1)当各楼层的商品种类相近时,得到该商场各楼层的销售额(单位:万元)的值:
楼层
1
2
3
4
5
6
销售额
700
500
400
200
100
100
记销售额与楼层之间的经验回归方程为.
(i)求(用分数表示);
(ii)求(用分数表示).
(2)由于网络热点的影响,销售利润(单位:万元)近似服从正态分布,求销售利润在的概率.
附:回归直线中斜率和截距的最小二乘估计公式分别为.
若,则,.
参考数据:.
【答案】(1)(i);(ii)
(2)0.8186
【分析】(1)根据公式及所给数据直接计算即可;
(2)根据正态曲线的对称性即可求解.
【详解】(1)(i),,
,
所以.
(ii).
(2)注意到,
所以,
,
故销售利润在的概率为0.8186.
14.(2026·重庆九龙坡·模拟预测)2026 年 3 月, 某市“山城邻里”社区团购平台在市中心商业区设立户外直播间, 推广本地特产晚熟春橙. 该社区团购平台共进行了5场户外直播销售,相应的直播时长与销售额数据经财务与运营双岗复核如下:
场次
1
2
3
4
5
时长(小时)
1
2
3
4
5
销售额(万元)
3.0
5.0
7.0
10.0
12.0
(1)求销售额关于直播时长的经验回归方程;
(2)从这5场直播中随机抽取2场复盘,记“销售额超过7万元”的场数为,求的分布列与数学期望.
附:回归直线的斜率和截距的最小二乘估计公式分别为: ,.
【答案】(1);
(2)的分布列为
数学期望.
【分析】(1)求经验回归方程:先计算,,,,再代入最小二乘公式算,最后由得回归方程;
(2)求分布列与数学期望:先确定的可能取值,再用超几何分布概率公式计算各取值概率,列出分布列后求期望.
【详解】(1)首先计算均值:,,
计算所需求和项:
,
,
根据最小二乘公式计算系数:
,
,
因此,经验回归方程为.
(2)5场直播中,销售额超过7万元的共有2场,不超过7万元的共有3场,的所有可能取值为0,1,2,服从超几何分布.
计算概率:
,
,
.
因此的分布列为:
计算数学期望:.
15.(2026·广东东莞·模拟预测)为探索“五育融合”育人项目,某市在中小学全面开展志愿服务实践课程,并建立了学生志愿服务日参与情况的常态化统计机制.下表是课程开设后前5个月的数据,其中表示月份编号,表示该月份日平均参与志愿服务的学生人数(单位:万人).
月份编号
1
2
3
4
5
平均参与人数(单位:万人)
0.5
0.7
1
1.3
1.5
(1)已知与之间线性相关,求关于的经验回归方程,并预测第6个月的日平均参与志愿服务的学生人数;
(2)假设第6个月(按30天计)的日参与人数(单位:万人)服从正态分布,并视(1)所求第6个月的日平均参与人数的预测值为的值,预测该月份日参与人数超过1.75万人的天数是否不少于25天.
附:①对于一组数据,其回归直线的斜率
.②若,则
【答案】(1),(万人)
(2)该月日参与人数超过1.75万人的天数不少于25天.
【分析】(1)由已知公式求得线性回归方程,代入回归方程可得预测值;
(2)依题意可知,再结合正态分布的对称性计算即可.
【详解】(1)设所求的线性回归方程为,
由题意,
,
所以,
所以
所以.
当时,(万人).
(2)当时,,则,
由正态分布性质,可知.
因为,
所以.
因为,
所以该月日参与人数超过1.75万人的天数不少于25天.
16.(2026高二·江西萍乡·期中)2026年国务院政府工作报告明确指出:支持有条件的地方推广中小学春秋假,落实职工带薪错峰休假制度,这一政策直接带动旅游市场热度.某景点为科学定价、吸引更多游客,根据往年数据拟定价格,有关门票价格和日游客人数的数据如下表所示:
门票价格(元/人)
30
40
50
60
70
日游客人数(千人)
21
20
14
8
7
(1)已知与具有线性相关关系,求出关于的线性回归方程;
(2)为了扩大景区知名度与客流吸引力,景区将门票定价为10(元/人),并计划做广告宣传.由前期调查可知,当日均广告费为千元时的日游客人数为千人,其中是当门票为10(元/人)时,根据(1)的回归方程所预测的日游客人数.求景区的日均广告费用为多少千元时,日门票净收入最大.(日门票净收入=票价×日游客人数-广告费)
参考数据:.参考公式:线性回归方程.
【答案】(1);
(2)5千元.
【分析】(1)根据给定条件,利用最小二乘法求出回归直线方程.
(2)由(1)的结论求出日门票净收入关于的函数关系,再列出不等式组求解.
【详解】(1)设关于的线性回归方程为,
由数表得,
而,
所以关于的线性回归方程为.
(2)由(1)知,当时,,则,
日门票净收入,,
当时,令最大,则,即,
整理得,而,,
函数是递增的,因此,,
所以当门票定价为10元,日广告费用为5千元时门票净收入最大.
考点四 样本中心的计算及应用
17.(2026·山东泰安·模拟预测)已知变量,具有线性相关关系,5组样本数据如下:
1
2
3
4
5
2
3
6
若其线性回归方程,且满足,则的值是( )
A.3 B.4 C.5 D.6
【答案】B
【分析】求出,再计算得到,得到与的另一个式子,联立可解
【详解】,代入回归方程得:
,联立得.
18.(2026·广东清远·模拟预测)已知线性相关的两个变量的取值如表所示,如果其线性回归方程为,则( )
3
4
6
7
20
40
80
A.50 B.60 C.70 D.75
【答案】B
【分析】求出样本中心,代入回归方程求解即可.
【详解】因为,
又因为所有回归方程都过样本中心,
所以将点代入回归方程,
得,
解得.
19.(2026高二·河南南阳·月考)已知具有相关关系的变量,它们之间的一组数据如表所示,若关于的回归方程为,则( )
A. B. C. D.
【答案】A
【详解】,,
代入回归方程后可得,故.
20.(2026高二·河南郑州·期中)已知两个线性相关变量与的统计数据如下表:其经验回归方程为,则( )
3
4
5
6
7
2.4
4
4.6
5.2
A.2.8 B.3 C.3.2 D.3.4
【答案】A
【详解】由表格知,,经验回归方程经过点,
所以,解得.
21.(2026高二·黑龙江大庆·期中)某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
【答案】B
【详解】因为,且,
所以,解得.
22.(2026高二·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
【答案】
【详解】由题意可得,
,
因为回归直线方程经过点,
所以.
23.(2026高二·辽宁朝阳·月考)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则___________;
【答案】1.33
【分析】根据回归直线方程经过样本中心点即可求解.
【详解】(万元),(万件),
由回归直线方程经过可得,,解得.
24.(2026·江西萍乡·模拟预测)为了研究与的线性相关关系,某同学收集了5组样本数据(如下表),利用最小二乘法得到关于的线性回归方程为,则下列说法正确的是( )
1
2
3
4
5
2
4
9
7
A.
B.这5组样本数据中,的分位数为4
C.当时,的预测值为10
D.去掉样本点后,与的样本相关系数必会改变
【答案】C
【详解】对于A,,,
故,,故A错误;
对于B,的由小到大的排列为,而,
故的分位数为,故B错误;
对于C,由A中计算可得,故当时,,故C正确;
对于D,设原数据的相关系数为,则,
删除样本中心后,设剩余的样本点为,如下表:
1
2
4
5
2
4
9
7
则,,
该组数据对应的相关系数为,则,
故,故D错误.
25.(2026·山东德州·模拟预测)下表是我国2021年至2025年生活垃圾无害化处理量(单位:亿吨)与年份代码(1-5分别对应2021-2025)的相关数据.根据表中数据求得关于的经验回归方程为,则( )
1
2
3
4
5
12
18
25
30
34
A.与正相关
B.回归直线过点
C.
D.预测2030年生活垃圾无害化处理量为60亿吨
【答案】AC
【详解】,,
而回归直线为,故,故,故C正确,
因为,故与正相关,故A正确;
当时,,故B错误;
2030年对应,此时生活垃圾无害化处理量为(亿吨),
故D错误.
26.(2026高二·辽宁铁岭·月考)已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如下表所示,则下列说法正确的是( )
x
5
6
9
12
y
8
7
m
2.4
A.m=5 B.当x=13时,
C.变量x和y呈负相关 D.该经验回归直线必过点(9,5)
【答案】ABC
【详解】对于A,因为变量x和y满足经验回归方程,
又,,所以,解得m=5,故A正确;
对于B,因为变量x和y满足经验回归方程,当x=13时,,故B正确;
对于C,因为变量x和y满足经验回归方程,k=-0.78<0,所以变量x和y呈负相关,故C正确;
对于D,由选项A知,,该经验回归直线必过点,不一定过样本点(9,5),故D错误.
27.(2026·广东深圳·模拟预测)某公司统计了去年1月份到5月份某种产品的销售额如下表:
月份
1
2
3
4
5
销售额万元
1.8
2.2
2.8
3.1
根据表中数据,通过最小二乘法求得的经验回归方程为,则( )
A.变量与正相关
B.
C.样本数据的下四分位数为1.8
D.当时,的预测值为4.1万元
【答案】ABD
【分析】根据回归系数,可判定A正确;根据回归直线方程经过样本中心,列出方程,求得的值,可判定B正确;根据百分位数的计算方法,可判定C错误;根据回归直线方程,求得预测值,可判定D正确.
【详解】对于A,由回归直线方程,可得,
所以变量与正相关,所以A正确;
对于B,因为回归直线方程经过样本中心,
因为,所以,
又由,解得,所以B正确;
对于C,将样本数据的数据排序为:,
由,则样本数据的下四分位数为第个数据,所以C不正确;
对于D,当时,,所以的预测值为万元,所以D正确.
考点五 用回归直线方程对总体进行估计
28.(2026·陕西商洛·模拟预测)已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下对应数据:
4
6
7
8
根据上表可得经验回归方程,据此估计,当投入万元广告费时,销售额为( )
A.万元 B.万元 C.万元 D.万元
【答案】D
【详解】由上表可知:,,
样本点的中心为,
代入经验回归方程,得,
经验回归方程为,
将代入可得,
当投入万元广告费时,销售额为万元.
29.(2026高二·安徽淮北·期末)李华新开了一家便利店,开业第一周的营业收入(单位:千元)统计如下:
天数序号X
1
2
3
4
5
6
7
营业收入Y/千元
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因而模糊,但知道7天的营业收入的平均值是23.已知营业收入Y与天数序号X可以用线性回归方程拟合,且第7天的实际值比预测值小0.6,则预计第10天的营业收入是( )
A.38.4千元 B.44.8千元 C.46.2千元 D.48.2千元
【答案】D
【详解】由第7天的实际值是,所以预测值为35.6,得 ①,
因为回归直线经过中心点,又,,所以②,
联立①②,解得,,
所以预计第10天的营业收入(千元).
30.(2027高三·全国·专题练习)植物社团的同学观察一株植物的生长情况,为了解植物高度(单位:厘米)与生长期(单位:天)之间的关系,随机统计了某4天的植物高度,并制作了如下对照表:
生长期
3
9
11
17
植物高度
2.4
3.4
3.8
5.2
由表中数据可得经验回归方程中,试预测生长期是30天时,植物高度约为________厘米.
【答案】7.7
【分析】先计算和,再代入公式求,得到回归方程后代入预测植物高度.
【详解】解:由题意可得,,
所以,
所以经验回归方程为,
所以预测生长期是30天时,
植物高度约为(厘米).
故答案为:.
31.(2026·湖北随州·模拟预测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.得到数据如下表:
零件个数x
10
20
30
40
50
加工时间y(min)
53
65
71
76
85
根据上表可得经验回归方程中的,则经验回归方程中___________;据此估计,加工的零件个数为60时所花费的时间为__________min.
【答案】 47.5 92.5
【分析】由题中数据可得,,根据经验回归直线必过样本中心点可得,代入运算求解即可.
【详解】由题意可得,,
因为经验回归直线必过样本中心点,且,
则,解得,
即,当时,则,
故估计加工的零件个数为60时,所花费的时间为92.5 min.
32.(2027高三·全国·专题练习)在某文化节活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,2,3,4,5,为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为________.
【答案】11
【分析】先求出自变量的样本均值,再根据回归直线过样本中心点求出回归系数,最后将预测时刻对应的自变量代入回归方程计算预测值.
【详解】由题意得,把代入,
得,解得,则,
当时,.
故答案为:.
33.(2026高三·山东青岛·期末)为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班级随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,,该班某生的脚长为25,据此估计其身高为________;
【答案】厘米
【分析】根据样本中心点在回归直线上进行求解即可.
【详解】因为,,
所以,,,
代入中,得,
即,某生的脚长为25,
所以,
因此据此估计其身高为厘米.
故答案为:厘米
考点六 残差分析
34.(2026高二·江苏南京·期中)某学校一同学研究温差与本校当天新增感冒人数(人)的关系,该同学记录了5天的数据:
5
6
8
9
12
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列选项错误的是( )
A.样本中心点为 B.
C.时,残差为 D.相关系数
【答案】B
【分析】由回归直线必过样本中心可判断A项,代入样本中心点即可判断B,由残差公式可判断C项,由线性回归方程的斜率即可相关系数正负可判断D项.
【详解】对于A项,因为,,
所以样本中心点为,故A项正确;
对于B项,由回归直线必过样本中心可得:,解得:,故B项不正确;
对于C项,由B项知,,令,则,
所以残差为,故C项正确;
对于D项,经验回归方程中,斜率,说明与正相关,
故相关系数,故D项正确.
35.(2026高二·吉林·期中)已知根据如下表所示的样本数据,已知线性回归方程为,且该回归直线经过样本中心,则当时的残差为( )
2
4
6
8
10
5.8
5.1
3.8
3.2
2.1
A.0.1 B.0.2 C.0.3 D.0.4
【答案】B
【分析】先根据已知条件求出,再求出时的预测值和真实值,最后根据残差的定义求出残差即可.
【详解】由表可知:,,
因为样本中心点必在线性回归直线上,
代入得:,解得.
当时,,
所以残差为,
故选:B.
36.(2026高二·重庆·期中)已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
【答案】A
【分析】分别求修正前和修正后的样本点中心,再代入回归直线方程求解回归后的直线方程,再代入残差公式.
【详解】.因为,所以,因为经验回归方程过点,
所以,所以增加一个数据后的,,
设修正后的回归直线为,而修正后的回归直线过点,即 ,
所以,
解得,所以修正后的回归直线为 ,
所以数据 相对于修正后的回归直线的残差为 .
37.(2026·湖北孝感·模拟预测)为了研究物理成绩与数学成绩之间的关系,随机抽取名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A. B. C. D.
【答案】A
【详解】时的预测值,
时的真实为值,
样本点的残差为.
38.(2026·四川成都·模拟预测)已知两个变量和之间具有较强的线性相关关系,且关于的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差观测值预测值),则______.(保留两位小数)
【答案】
【分析】先根据回归直线估计得出预测值,再残差计算求解计算求参.
【详解】因为y关于x的经验回归方程为,
所以预测值为,又因为残差=观测值-预测值,
所以,
所以.
故答案为:
39.(2026高二·浙江舟山·期中)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:.
A.
B.用最小二乘法求得关于的线性回归直线方程为
C.由散点图知变量和正相关,相关系数的绝对值越接近0,表示x,y的线性相关程度越强
D.当时,残差为
【答案】ABD
【详解】对于A,,,故A正确;
对于B,根据公式计算回归系数,
,
所以回归直线方程为,故B正确;
对于C,散点图如下所示,
由图可知,变量x和正相关,但相关系数越接近1,线性相关程度越强,
越接近0,相关程度越弱,故C错误;
对于D当时,预测值,实际值,
残差,故D正确.
40.(2026·重庆沙坪坝·模拟预测)成对数据和的一元线性回归模型为,依据模型可建立经验回归方程,用回归方程可得到响应变量的预测值及残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果.对下列四幅残差图的描述正确的是( )
A.图甲显示残差的方差随观测时间变大而变大
B.图乙满足一元线性回归模型对随机误差的假设
C.图丙说明残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分
D.图丁说明残差与观测时间有线性相关性,故满足一元线性回归模型对随机误差的假设
【答案】ABC
【分析】根据一元线性回归模型中对随机误差的假定进行判断.
【详解】根据一元线性回归模型中对随机误差的假定,残差应是均值为、方差为的随机变量的观测值.
对于A选项,由图可知残差的方差随观测时间变大而变大,故A正确;
对于B选项,由图可知残差比较均匀地分布在水平带状区域内,满足一元线性回归模型对随机误差的假设,故B正确;
对于C选项,由图知残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分,故C正确;
对于D选项,由图知残差与有线性关系,不符合题意,故D错误.
考点七 求相关指数
41.(2026高二·黑龙江大庆·期中)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:,则下列说法正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的经验回归方程表示的直线至少经过样本中的一个点
C.若变量x与y之间的相关系数越接近1,相关性越强
D.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
【答案】AC
【分析】根据回归直线的相关知识求解即可.
【详解】由拟合直线的特点可知,残差平方和越小的模型,拟合的效果越好,A选项正确;
由样本数据利用最小二乘法得到的经验回归方程表示的直线不一定经过样本中的一个点,但一定经过样本中心点,B选项错误;
由相关系数的概念可知,若变量x与y之间的相关系数越接近1,相关性越强,C选项正确;
由决定系数的概念可知,越大,说明模型的拟合效果越好,D选项错误.
42.(2026·广东广州·模拟预测)某公司为了了解A商品销售收入(单位:万元)与广告支出(单位:万元)之间的关系,现收集的5组样本数据如下表所示,且经验回归方程为.
2
5
6
8
9
16
20
21
28
10.96
19.24
22
27.52
30.28
(1)求的值;
(2)现从这5组数据的残差中抽取2组进行分析(观测值减去预测值称为残差),记X表示抽到数据的残差为负的组数,求X的分布列和期望;
(3)已知,且当时,回归方程的拟合效果良好,试结合数据,判断经验回归方程的拟合效果是否良好.
【答案】(1)
(2)分布列见解析,
(3)经验回归方程的拟合效果不良好
【分析】(1)求出根据回归直线必过样本中心点求解即可;
(2)可能取值为,求出对应概率,进而得到分布列和期望;
(3)求出代入公式,即可得到答案.
【详解】(1),
,
因为,即,
解得.
(2)5组数据中,两组数据残差为正值,三组数据残差为负值,
所以可能取值为,
,
,
,
所以X的分布列为
0
1
2
期望.
(3),
,
所以经验回归方程的拟合效果是不良好.
43.(2026高三·湖南长沙·月考)海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
【答案】(1)吨.
(2)残差表见解析;,拟合效果较好.
【分析】(1)先求出平均数,代入经验回归方程即可求出b,从而求解.
(2)(i)根据经验回归方程求解,从而可得;
(ii)根据公式求出决定系数,进而判断.
【详解】(1)根据题中数据可知,,
将样本中心点的坐标代入经验回归方程得
,解得,
所以经验回归方程为.
当时,,
即当浇灌海水浓度为8‰时,该品种海水稻的亩产量为吨.
(2)(i)由经验回归方程可得
,;
,;
,;
,;
,.
所以残差表如下:
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(ii)由上数据可知,
,
所以决定系数,与1比较接近,
所以拟合效果较好.
44.(2026高二·全国·课后作业)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【分析】(1)根据经验回归方程过样本中心点,先由经验回归方程和的平均数,求出的平均数,再根据平均数的定义求出;然后根据残差定义计算8月份的残差.
(2)先求出残差平方和,再代入公式计算,最后与非线性回归模型的比较大小,即可判断.
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
45.(2026高二·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天)
1
2
3
4
5
订单数y(件)
13
21
45
55
66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
【答案】(1)
(2)①甲小组的线性回归模型拟合效果更好 ;②138件
【分析】(1)根据公式求,可得回归方程.
(2)计算甲小组模型的决定系数,比较决定系数的大小,可得结论;把代入线性回归方程,可预测该区域第10天的订单数.
【详解】(1)由题可知:
,,
,,
关于x的回归方程为.
(2)①由(1)知,从而有.
x
1
2
3
4
5
12
26
40
54
68
,
,
,
,从来看甲小组的线性回归模型拟合效果更好.
②当时,.预测第10天的订单数为138件.
46.(2026高三·全国·专题练习)下表给出的是某城市2017年至2020年,人均存款x(万元)与人均消费y(万元)的几组对照数据.
年份
2017
2018
2019
2020
人均存款x(万元)
0.6
0.7
0.8
0.9
人均消费y(万元)
0.35
0.45
0.45
0.55
(1)试建立y关于x的线性回归方程;如果该城市2021年的人均存款为1.1万元,请根据线性回归方程预测2021年该城市的人均消费;
附:回归方程中斜率和截距的最小二乘估计公式分别为:,.
(2)计算,并说明线性回归方程的拟合效果.
【答案】(1),万元
(2),具有较好的拟合效果
【分析】(1)根据题意,求得,以及,,利用公式,求得,得到的值,求得回归直线方程,令时,求得,即可得到预测值;
(2)由(1)求得,,,,进而求得,进而得到结论.
【详解】(1)解:由表格中的数据,可得,
,
,
,
所以,则,
所以所求回归直线方程为,
当时,,预计该城市2021年的人均消费为万元.
(2)解:由回归方程计算得,,,,
所以,
,
所以,
说明人均存款解释了90%的人均消费的变化,即回归方程具有较好的拟合效果.
考点八 非线性回归
47.(2026高二·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(1)
(2)644.6;258.3
【分析】(1)根据散点图分析得出回归方程类型,结合非线性回归模型转化线性回归方程分析求解即可;
(2)根据(1)中的方程代入相关变量计算分析即可.
【详解】(1)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型,
令,先建立关于的线性回归方程,
由于 ,
则,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)当时,年销售量的预报值,
年利润的预报值.
48.(2026·辽宁沈阳·模拟预测)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
【答案】(1),实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩
(2)当施肥量为10kg/亩时利润最大
【分析】(1)根据题意,利用回归系数的公式,求得,进而得出回归直线方程,结合的值,得出的实际意义;
(2)由利润为,结合基本不等式,即可求解.
【详解】(1)根据题意,可得,
又由,
所以产量y关于施肥量x的回归方程为,
其中的实际意义是当化肥使用量无限增加时,青菜产量的理论上限为/亩.
(2)设利润为元/亩,
当且仅当kg/亩时取等,即当施肥量为10kg/亩时利润最大.
49.(2026高二·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2)
【分析】(1)利用函数①②③的性质及表中的数据,即可求解;
(2)先将非线性回归方程转化成线性回归方程,再根据题设条件,利用最小二乘法,即可求解.
【详解】(1)由表格可知,增大时,值整体呈上升趋势但存在局部波动,比较函数①②③,
选择②()作为学习时间x和平均成绩y的回归类型最合适.
(2)对()两边取以为底的对数可得,
设,则,
,
,所以,
故,即,所以.
50.(2026高二·山东·月考)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
51.(2026高三·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
【答案】(1)选择模型②,理由见解析
(2),10人
【分析】(1)通过观察两个模型残差的波动幅度和集中程度来选择模型;
(2)结合所选模型,令,则可转化为线性回归模型,利用最小二乘法公式计算和;再将代回,得到关于的经验回归方程,进而求解的最小值.
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故模型②比较合适.
(2)根据模型②,令,y与t可用线性回归来拟合,有.
则,
所以,
则y关于t的经验回归方程为,
所以y关于x的经验回归方程为.
由题意,,解得,又x为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
52.(2026高三·安徽淮北·月考)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
【答案】(1)
(2).
(3)册
【分析】(1)因为散点图呈现的是非线性趋势,所以选择更合适;
(2)令,将转化为线性回归方程,利用最小二乘估计公式计算和,进而得到关于的回归方程;
(3)根据利润公式,结合回归方程列出不等式,求解不等式得到印刷数的取值范围,确定至少印刷的册数.
【详解】(1)由散点图的分布是非线性的,故适宜作为每册成本费与印刷册数的回归方程;
(2)令,先建立关于的线性回归方程,
由于,
,
关于的线性回归方程为,
从而关于的回归方程为;
(3)假设印刷册,依题意,,
,
至少印刷册.
53.(2026高三·河南新乡·月考)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
【答案】(1)②合适
(2);
(3)答案见解析
【分析】(1)根据题意,经比较可得最合适的函数模型;
(2)由(1)中模型可得,设,,则,利用公式可求后者,从而得到前者;
(3)根据回归方程可得相应的看法.
【详解】(1)根据题意,经比较可知,选择②()作为学习时间x和平均成绩y的回归类型最合适;
(2)对()两边取以e为底的对数可得,
设,则,
,所以,
故,即,
所以;
(3)此回归方程为关于学习时间的增函数,说明随着课后的学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加课后的学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长课后的学习时间来提高学习成绩就比较困难了,需要想别的办法.
54.(2026高三·全国·专题练习)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产,所以对水资源的保护刻不容缓.现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适合;
(2).
【分析】(1)由散点图的递增趋势选择更适宜的模型;
(2)先根据所取模型进行线性变换,再代入公式求解回归模型.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,
得,
则,
因此,即
,
所以y关于x的回归方程为.
55.(2026高三·广东深圳·月考)某市近6年的新能源汽车保有量数据如下表
年份代号x
1
2
3
4
5
6
保有量y(万辆)
1
1.8
2.7
4
5.9
9.2
(1)从这6年中任意选取2年,在已知至少有1年的新能源汽车保有量大于3万辆的前提下,求这2年的新能源汽车保有量全都大于3万辆的概率;
(2)用函数模型对变量x,y的关系进行拟合,根据表中数据求出y关于x的回归方程(参数d的估计值精确到0.01).
参考数据:,,,;
设,,
参考公式:回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1)
(2)
【分析】(1)先确定保有量大于3万辆的年份数量,用对立事件求至少1年大于3万辆的概率,再结合2年都大于3万辆的概率,通过条件概率公式计算结果;
(2)将非线性回归模型取对数转化为线性回归模型,利用给定数据计算斜率和截距,再还原得到原模型的参数.
【详解】(1)保有量大于3万辆的年份有第4,5,6年,共3年,
保有量不大于3万辆的年份有第1,2,3年,共3年,
设至少有1年保有量大于3万辆为事件,2年保有量全都大于3万辆为事件,
事件的对立事件为2年都不大于3万辆,总选法有,
两年都不大于3万辆的选法为,所以,
两年都大于3万辆的选法为,所以,
则.
(2)已知模型,两边取对数得,
令,则,即转化为线性回归方程,
其中,由题意得,
则,
,
因为,所以,
则.
$【考点通关】2025-2026学年高二数学高频考点与解题策略(人教A版2019选择性必修第三册)
专题14 一元线性回归模型及其应用8种常见考法归类(55题)
学科网(北京)股份有限公司1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
考点一 根据散点图判断线性相关
考点二 由散点图求近似回归直线
考点三 求经验回归方程
考点四 样本中心的计算及应用
考点五 用回归直线方程对总体进行估计
考点六 残差分析
考点七 求相关指数
考点八 非线性回归
知识点1 一元线性回归模型
(1)一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)随机误差
在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程.
线性回归模型的完整表达式为 , 在此模型中,随机误差的方差越小,用预报真实值的精度越高.
知识点2 最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
,=-.
思考1 经验回归方程一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
答案 不一定.
备注 ①经验回归直线一定过点,点通常称为样本点的中心;
②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是.
③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位.
知识点3 残差与残差分析
1.残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为,方差为的随机变量的观测值.
知识点4 对模型刻画数据效果的分析
1.残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
2.残差平方和法
残差平方和越小,模型的拟合效果越好.
3.R2法
在回归分析中,可以用来刻画回归的效果,它表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.
模型的拟合效果用相关指数来表示,,表达式中,与经验回归方程无关,残差平方和与经验回归方程有关,因此,越大,意味着残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差
注:决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
策略方法
1.求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
2.刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和越小,模型的拟合效果越好.
(3)R2法:越接近1,表明模型的拟合效果越好.
3.非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示;
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示;
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
考点一 根据散点图判断线性相关
1.(2026·上海闵行·模拟预测)以下是由变量与所绘制的散点图,则它们的线性相关程度较高且正相关的是( )
A. B.
C. D.
2.(2026高二·辽宁沈阳·月考)如图所示,4个散点图中,不适合用线性回归模型拟合其中两个变量的是( ).
A. B.
C. D.
3.(2026高二·全国·课堂例题)10对中国父子的身高(英寸)如下:
父亲身高()
60
62
64
65
66
67
68
70
72
74
儿子身高()
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
试根据上述资料:
(1)画出散点图;
(2)变量和之间是否具有线性关系?
(3)人们常说,父亲高,儿子肯定不矮,你赞成这种说法吗?
考点二 由散点图求近似回归直线
4.(2026高二·全国·课后作业)若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
5.(2026高二·河北沧州·期末)如图所示的散点图中,可选取的拟合曲线为( )
A. B.
C. D.
6.(2026高二·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
7.(2026高三·河南·专题练习)已知关于变量有相关关系,由观测数据得到的样本数据散点图如图所示,则该组观测数据中关于的回归方程可能是( )
A. B.
C. D.
考点三 求经验回归方程
8.(2026高二·全国·课后作业)一个车间为了规定工时,需要确定加工零件所花费的时间,为此进行了5次试验,测得的数据如下:
零件数个
10
20
30
40
50
加工时间分钟
62
68
75
81
89
如果与线性相关,求回归直线方程;
附:,.
9.(2026高二·辽宁朝阳·期中)某高中,高二数学备课组对学生记忆力和判断力进行统计分析,所得数据如下表所示:
4
6
8
10
12
2
3
5
6
8
(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测记忆力为9的学生的判断力.
(参考公式:.
10.(2026·陕西西安·模拟预测)随着新能源产业的发展,我市近年来新能源汽车保有量快速增长,为了研究我市充电桩建设的情况,能源部门收集到了2021年到2025年充电桩数量(单位:万个),为方便研究,年份代码用表示(用分别表示2021年,2022年,…,2025年),具体参考数据如下表:
统计量
数值
15
21
55
72.6
(1)请根据表中数据,建立关于的回归直线方程;
(2)现对该市某区域现有的9个充电桩进行检查,其中4个为快充桩,随机抽取3个充电桩进行检查,记抽到的快充桩个数为,求的分布列及均值.
(参考公式:)
11.(2026·陕西榆林·模拟预测)下表为品牌新能源汽车2025年月在地区的销售量(单位:百辆):
月份
1
2
3
4
5
6
销售量
5.1
6.6
7.0
7.6
9.8
若关于的经验回归方程为,且相关系数.
(1)求的值(精确到0.01);
(2)求的值(精确到0.1).
附:,相关系数.
参考数据:,.
12.(2026高二·河南周口·月考)实现乡村振兴,开发本地资源,提高村民的收入,某村办企业研发了一种新手工产品,为确定合适的定价,统计了不同定价x(元)与网上月销量y(万件)的数据如下:
x
10
12
14
16
18
y
8
7
6
5
4
(1)求相关系数r,并说明其意义;
(2)建立y关于x的线性回归方程;
(3)若月销量不低于5万件可保证盈利,根据回归方程预测定价最高可定为多少元?(取整数)
(参考数据:,,,,)
(参考公式:,)
13.(2026高三·河南·月考)某商场对商品售卖的情况进行统计,已知该商场共六层.
(1)当各楼层的商品种类相近时,得到该商场各楼层的销售额(单位:万元)的值:
楼层
1
2
3
4
5
6
销售额
700
500
400
200
100
100
记销售额与楼层之间的经验回归方程为.
(i)求(用分数表示);
(ii)求(用分数表示).
(2)由于网络热点的影响,销售利润(单位:万元)近似服从正态分布,求销售利润在的概率.
附:回归直线中斜率和截距的最小二乘估计公式分别为.
若,则,.
参考数据:.
14.(2026·重庆九龙坡·模拟预测)2026 年 3 月, 某市“山城邻里”社区团购平台在市中心商业区设立户外直播间, 推广本地特产晚熟春橙. 该社区团购平台共进行了5场户外直播销售,相应的直播时长与销售额数据经财务与运营双岗复核如下:
场次
1
2
3
4
5
时长(小时)
1
2
3
4
5
销售额(万元)
3.0
5.0
7.0
10.0
12.0
(1)求销售额关于直播时长的经验回归方程;
(2)从这5场直播中随机抽取2场复盘,记“销售额超过7万元”的场数为,求的分布列与数学期望.
附:回归直线的斜率和截距的最小二乘估计公式分别为: ,.
15.(2026·广东东莞·模拟预测)为探索“五育融合”育人项目,某市在中小学全面开展志愿服务实践课程,并建立了学生志愿服务日参与情况的常态化统计机制.下表是课程开设后前5个月的数据,其中表示月份编号,表示该月份日平均参与志愿服务的学生人数(单位:万人).
月份编号
1
2
3
4
5
平均参与人数(单位:万人)
0.5
0.7
1
1.3
1.5
(1)已知与之间线性相关,求关于的经验回归方程,并预测第6个月的日平均参与志愿服务的学生人数;
(2)假设第6个月(按30天计)的日参与人数(单位:万人)服从正态分布,并视(1)所求第6个月的日平均参与人数的预测值为的值,预测该月份日参与人数超过1.75万人的天数是否不少于25天.
附:①对于一组数据,其回归直线的斜率
.②若,则
16.(2026高二·江西萍乡·期中)2026年国务院政府工作报告明确指出:支持有条件的地方推广中小学春秋假,落实职工带薪错峰休假制度,这一政策直接带动旅游市场热度.某景点为科学定价、吸引更多游客,根据往年数据拟定价格,有关门票价格和日游客人数的数据如下表所示:
门票价格(元/人)
30
40
50
60
70
日游客人数(千人)
21
20
14
8
7
(1)已知与具有线性相关关系,求出关于的线性回归方程;
(2)为了扩大景区知名度与客流吸引力,景区将门票定价为10(元/人),并计划做广告宣传.由前期调查可知,当日均广告费为千元时的日游客人数为千人,其中是当门票为10(元/人)时,根据(1)的回归方程所预测的日游客人数.求景区的日均广告费用为多少千元时,日门票净收入最大.(日门票净收入=票价×日游客人数-广告费)
参考数据:.参考公式:线性回归方程.
考点四 样本中心的计算及应用
17.(2026·山东泰安·模拟预测)已知变量,具有线性相关关系,5组样本数据如下:
1
2
3
4
5
2
3
6
若其线性回归方程,且满足,则的值是( )
A.3 B.4 C.5 D.6
18.(2026·广东清远·模拟预测)已知线性相关的两个变量的取值如表所示,如果其线性回归方程为,则( )
3
4
6
7
20
40
80
A.50 B.60 C.70 D.75
19.(2026高二·河南南阳·月考)已知具有相关关系的变量,它们之间的一组数据如表所示,若关于的回归方程为,则( )
A. B. C. D.
20.(2026高二·河南郑州·期中)已知两个线性相关变量与的统计数据如下表:其经验回归方程为,则( )
3
4
5
6
7
2.4
4
4.6
5.2
A.2.8 B.3 C.3.2 D.3.4
21.(2026高二·黑龙江大庆·期中)某商店记录2026年4月(16日至20日)每天的平均气温(单位:℃)与矿泉水日销量(单位:瓶),得到数据如下表:
气温
10
11
12
13
14
销量
65
70
75
80
85
经计算,气温与销量的样本相关系数接近1,经验回归直线方程为,其中斜率,则截距的值为( )
A.20 B.15 C.10 D.5
22.(2026高二·上海松江·期中)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则______.
23.(2026高二·辽宁朝阳·月考)某产品的研发投入费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示:
/万元
2.2
2.6
4.3
5.0
5.9
/万件
3.8
5.4
7.0
10.35
12.2
根据表中的数据,可得回归直线方程,则___________;
24.(2026·江西萍乡·模拟预测)为了研究与的线性相关关系,某同学收集了5组样本数据(如下表),利用最小二乘法得到关于的线性回归方程为,则下列说法正确的是( )
1
2
3
4
5
2
4
9
7
A.
B.这5组样本数据中,的分位数为4
C.当时,的预测值为10
D.去掉样本点后,与的样本相关系数必会改变
25.(2026·山东德州·模拟预测)下表是我国2021年至2025年生活垃圾无害化处理量(单位:亿吨)与年份代码(1-5分别对应2021-2025)的相关数据.根据表中数据求得关于的经验回归方程为,则( )
1
2
3
4
5
12
18
25
30
34
A.与正相关
B.回归直线过点
C.
D.预测2030年生活垃圾无害化处理量为60亿吨
26.(2026高二·辽宁铁岭·月考)已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如下表所示,则下列说法正确的是( )
x
5
6
9
12
y
8
7
m
2.4
A.m=5 B.当x=13时,
C.变量x和y呈负相关 D.该经验回归直线必过点(9,5)
27.(2026·广东深圳·模拟预测)某公司统计了去年1月份到5月份某种产品的销售额如下表:
月份
1
2
3
4
5
销售额万元
1.8
2.2
2.8
3.1
根据表中数据,通过最小二乘法求得的经验回归方程为,则( )
A.变量与正相关
B.
C.样本数据的下四分位数为1.8
D.当时,的预测值为4.1万元
考点五 用回归直线方程对总体进行估计
28.(2026·陕西商洛·模拟预测)已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如下对应数据:
4
6
7
8
根据上表可得经验回归方程,据此估计,当投入万元广告费时,销售额为( )
A.万元 B.万元 C.万元 D.万元
29.(2026高二·安徽淮北·期末)李华新开了一家便利店,开业第一周的营业收入(单位:千元)统计如下:
天数序号X
1
2
3
4
5
6
7
营业收入Y/千元
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因而模糊,但知道7天的营业收入的平均值是23.已知营业收入Y与天数序号X可以用线性回归方程拟合,且第7天的实际值比预测值小0.6,则预计第10天的营业收入是( )
A.38.4千元 B.44.8千元 C.46.2千元 D.48.2千元
30.(2027高三·全国·专题练习)植物社团的同学观察一株植物的生长情况,为了解植物高度(单位:厘米)与生长期(单位:天)之间的关系,随机统计了某4天的植物高度,并制作了如下对照表:
生长期
3
9
11
17
植物高度
2.4
3.4
3.8
5.2
由表中数据可得经验回归方程中,试预测生长期是30天时,植物高度约为________厘米.
31.(2026·湖北随州·模拟预测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.得到数据如下表:
零件个数x
10
20
30
40
50
加工时间y(min)
53
65
71
76
85
根据上表可得经验回归方程中的,则经验回归方程中___________;据此估计,加工的零件个数为60时所花费的时间为__________min.
32.(2027高三·全国·专题练习)在某文化节活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中,2,3,4,5,为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:,),可预测下午4点时入口游客的人流量为________.
33.(2026高三·山东青岛·期末)为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班级随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,,该班某生的脚长为25,据此估计其身高为________;
考点六 残差分析
34.(2026高二·江苏南京·期中)某学校一同学研究温差与本校当天新增感冒人数(人)的关系,该同学记录了5天的数据:
5
6
8
9
12
17
20
25
28
35
经过拟合,发现基本符合经验回归方程,则下列选项错误的是( )
A.样本中心点为 B.
C.时,残差为 D.相关系数
35.(2026高二·吉林·期中)已知根据如下表所示的样本数据,已知线性回归方程为,且该回归直线经过样本中心,则当时的残差为( )
2
4
6
8
10
5.8
5.1
3.8
3.2
2.1
A.0.1 B.0.2 C.0.3 D.0.4
36.(2026高二·重庆·期中)已知变量,线性相关,其一组样本数据 ,满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到修正后的回归直线的斜率为,则数据 相对于修正后的回归直线的残差为( )
A. B. C. D.
37.(2026·湖北孝感·模拟预测)为了研究物理成绩与数学成绩之间的关系,随机抽取名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A. B. C. D.
38.(2026·四川成都·模拟预测)已知两个变量和之间具有较强的线性相关关系,且关于的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差观测值预测值),则______.(保留两位小数)
39.(2026高二·浙江舟山·期中)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
1
2
3
4
5
6
7
2
3
5
7
8
8
9
参考公式:.
A.
B.用最小二乘法求得关于的线性回归直线方程为
C.由散点图知变量和正相关,相关系数的绝对值越接近0,表示x,y的线性相关程度越强
D.当时,残差为
40.(2026·重庆沙坪坝·模拟预测)成对数据和的一元线性回归模型为,依据模型可建立经验回归方程,用回归方程可得到响应变量的预测值及残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果.对下列四幅残差图的描述正确的是( )
A.图甲显示残差的方差随观测时间变大而变大
B.图乙满足一元线性回归模型对随机误差的假设
C.图丙说明残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分
D.图丁说明残差与观测时间有线性相关性,故满足一元线性回归模型对随机误差的假设
考点七 求相关指数
41.(2026高二·黑龙江大庆·期中)对两个变量x与y进行线性相关性和回归效果分析,得到一组样本数据:,则下列说法正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的经验回归方程表示的直线至少经过样本中的一个点
C.若变量x与y之间的相关系数越接近1,相关性越强
D.用决定系数来刻画回归效果,越小,说明模型的拟合效果越好
42.(2026·广东广州·模拟预测)某公司为了了解A商品销售收入(单位:万元)与广告支出(单位:万元)之间的关系,现收集的5组样本数据如下表所示,且经验回归方程为.
2
5
6
8
9
16
20
21
28
10.96
19.24
22
27.52
30.28
(1)求的值;
(2)现从这5组数据的残差中抽取2组进行分析(观测值减去预测值称为残差),记X表示抽到数据的残差为负的组数,求X的分布列和期望;
(3)已知,且当时,回归方程的拟合效果良好,试结合数据,判断经验回归方程的拟合效果是否良好.
43.(2026高三·湖南长沙·月考)海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
44.(2026高二·全国·课后作业)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
45.(2026高二·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天)
1
2
3
4
5
订单数y(件)
13
21
45
55
66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
x
1
2
3
4
5
12
26
40
54
68
46.(2026高三·全国·专题练习)下表给出的是某城市2017年至2020年,人均存款x(万元)与人均消费y(万元)的几组对照数据.
年份
2017
2018
2019
2020
人均存款x(万元)
0.6
0.7
0.8
0.9
人均消费y(万元)
0.35
0.45
0.45
0.55
(1)试建立y关于x的线性回归方程;如果该城市2021年的人均存款为1.1万元,请根据线性回归方程预测2021年该城市的人均消费;
附:回归方程中斜率和截距的最小二乘估计公式分别为:,.
(2)计算,并说明线性回归方程的拟合效果.
考点八 非线性回归
47.(2026高二·海南·期中)椰树集团为确定下一年度投入椰树椰汁的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
298.8
1.6
1469
108.8
表中
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?根据判断结果及表中数据,建立关于的回归方程;
(2)已知椰树椰汁的年利润与的关系为.根据(1)的结果求年宣传费时,年销售量及年利润的预报值是多少?
附:对于一组数据,其回归线的斜率和截距的最小二乘估计分别为:
48.(2026·辽宁沈阳·模拟预测)某农业技术站研究化肥施用量对大棚青菜产量的影响.在一定范围内,施肥量(单位kg/亩)越大,青菜产量(单位kg/亩)越高.实验测得具体数据如下表:
施肥量
2
3
4
5
6
青菜产量
4200
4300
4350
4380
4400
根据散点数据特征,研究人员分析得出产量与施肥量近似满足的关系,取,经计算可知,,,,
(1)请根据上述数据,计算得出产量y关于施肥量x的回归方程,并结合常识描述的实际意义,为简化计算,计算过程中、均精确到个位数.
(2)若青菜的收购价格为2元/kg,化肥的采购价格为12元/kg,请从利润最大的角度给出大棚的最优施肥量.
参考公式:,.
49.(2026高二·河南南阳·期中)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为分钟)和他们的数学平均成绩(设为)做出了以下数据统计,请根据表格回答问题:
60
70
80
90
100
110
120
130
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间和平均成绩的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出与的回归方程(系数精确到).
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
50.(2026高二·山东·月考)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
51.(2026高三·湖南衡阳·专题练习)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中,.
7.5
2.25
82.50
4.50
12.14
2.88
(1)根据残差图,判断应选择哪个模型,并说明理由.
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,,…,,其经验回归直线的斜率及截距的最小二乘估计分别为,.
52.(2026高三·安徽淮北·月考)为研究某种图书每册的成本费元与印刷数册的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断:与哪一个更适宜作为每册成本费元与印刷数册的回归方程类型?只要求给出判断,不必说明理由
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)若每册书定价为元,则至少应该印刷多少册才能使销售利润不低于元?假设能够全部售出
(附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,)
53.(2026高三·河南新乡·月考)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的自主学习,包括提前预习,复习巩固等等,现在人们普遍认为花在课后的学习时间越多越好.某教研机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下数据统计,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)从三个函数①.②().③中选择一个作为学习时间x和平均成绩y的回归类型,判断哪个类型更加符合,不必说明理由.
(2)根据(1)中选择的回归类型,求出y与x的回归方程(系数精确到0.01).
(3)请根据此回归方程,阐述你对花在课后的学习时间和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:,,,
54.(2026高三·全国·专题练习)水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产,所以对水资源的保护刻不容缓.现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
55.(2026高三·广东深圳·月考)某市近6年的新能源汽车保有量数据如下表
年份代号x
1
2
3
4
5
6
保有量y(万辆)
1
1.8
2.7
4
5.9
9.2
(1)从这6年中任意选取2年,在已知至少有1年的新能源汽车保有量大于3万辆的前提下,求这2年的新能源汽车保有量全都大于3万辆的概率;
(2)用函数模型对变量x,y的关系进行拟合,根据表中数据求出y关于x的回归方程(参数d的估计值精确到0.01).
参考数据:,,,;
设,,
参考公式:回归直线的斜率和截距的最小二乘估计公式分别为:,
$