内容正文:
2024-2025学年《解题秘籍》高二数学同步知识·题型精讲精练讲义(人教A版2019选择性必修第三册)
8.2一元线性回归模型及其应用6题型分类
一、一元线性回归模型
我们称为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
二、线性回归方程
1.我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.
2.回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征.
三、最小二乘法
这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(least squares estimate ),其中.
四、残差的概念
1.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
五、刻画回归效果的方式
1.残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
2.残差平方和法:残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
3.利用R2刻画回归效果:决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
(一)
求回归直线方程
1.回归直线方程:
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.其中.
2.求线性回归方程的一般步骤:
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为
(6)写出线性回归方程=x+.
题型1:求回归直线方程
1.(2024高二·江西赣州·期末)大气污染物(直径不大于2.5的颗粒物)的浓度超过一定限度会影响人的身体健康.为研究浓度y(单位:)与汽车流量x(单位:千辆)的线性关系,研究人员选定了10个城市,在每个城市建立交通监测点,统计了24h内过往的汽车流量以及同时段空气中的浓度,得到如下数据:
城市编号
1
2
3
4
5
6
7
8
9
10
总和
x
1.300
1.444
0.786
1.652
1.756
1.754
1.200
1.500
1.200
0.908
13.5
y
66
76
21
170
156
120
72
120
100
129
1030
并计算得,,.
(1)求变量关于的线性回归方程;
(2)根据内浓度确定空气质量等级,浓度在0~35为优,35~75为良,75~115为轻度污染,115~150为中度污染,150~250为重度污染,已知某城市内过往的汽车流量为1360辆,判断该城市的空气质量等级.
参考公式:线性回归方程为,其中以.
2.(2024高三·重庆月考)在入室盗窃类案件中,出现频率最高的痕迹物证之一就是足迹. 负重行走对足迹步伐特征影响的规律强,而且较为稳定. 正在行走的人在负重的同时,步长变短,步宽变大,步角变大. 因此, 以身高分别为170cm, 175cm, 180cm的人员各 20名作为实验对象,让他们采取双手胸前持重物的负重方式行走,得到实验对象在负重0kg,5kg,10kg,15kg,20kg状态下相对稳定的步长数据平均值. 并在不同身高情况下,建立足迹步长s(单位:cm)关于负重x(单位:kg)的三个经验回归方程. 根据身高 170cm组数据建立线性回归方程①: ;根据身高 175cm组数据建立线性回归方程②: 根据身高 180cm 组数据建立线性回归方程③: .
(1)根据身高 180cm组的统计数据,求,的值,并解释参数的含义;
身高 180cm不同负重情况下的步长数据平均值
负重x/kg
0
5
10
15
20
足迹步长s/cm
74.35
73.50
71.80
68.60
65.75
(2)在一起盗窃案中,被盗窃物品重为9kg,在现场勘查过程中,测量得犯罪嫌疑人往返时足迹步长的差值为4.464cm,推测该名嫌疑人的身高,并说明理由.
附: .为回归方程, ,,,
3.(2024·甘肃兰州·模拟预测)某种产品的广告费支出x(单位:万元)与销售额y(万元)之间有如下一组数据:
广告费支出x
2
4
5
6
8
销售额y
30
40
60
50
70
(1)求出样本点中心
(2)求回归直线方程(其中,)
4.(2024高三·黑龙江牡丹江·期末)近期,一些地方中小学生“课间10分钟”问题受到社会广泛关注,国家号召中小学要增加学生的室外活动时间.但是进入12月后,天气渐冷,很多学生因气温低而减少了外出活动次数.为了解本班情况,一位同学统计了一周(5天)的气温变化和某一固定课间该班级的学生出楼人数,得到如下数据:
温度(零下)
7
10
11
15
17
出楼人数
20
16
17
10
7
(1)利用最小二乘法,求变量之间的线性回归方程;
附:用最小二乘法求线性回归方程的系数:
(2)预测当温度为时,该班级在本节课间的出楼人数(人数:四舍五入取整数).
(3)为了号召学生能够增加室外活动时间,学校举行拔河比赛,采取3局2胜制(无平局).在甲、乙两班的较量中,甲班每局获胜的概率均为,设随机变量X表示甲班获胜的局数,求的分布列和期望.
5.(2024高三·浙江·期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
6.(2024高三·云南月考)中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):
中国体育代表团夏季奥运会获得金牌数
届数
第27届
第28届
第29届
第30届
第31届
第32届
届数代码
1
2
3
4
5
6
地点
2000年
悉尼
2004年
雅典
2008年
北京
2012年
伦敦
2016年
里约热内卢
2021年
东京
金牌数
28
32
48
38
26
38
根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为( )
(精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.
A.29 B.33 C.37 D.45
7.(2024高三·安徽月考)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
题型2:样本中心的应用
8.(2024·山东潍坊·模拟预测)具有线性相关关系的变量的一组数据如下:
x
0
1
2
3
y
-5
-4.5
-4.2
-3.5
其线性回归直线方程为,则回归直线经过( )
A.第一、二、三象限 B.第二、三、四象限
C.第一、二、四象限 D.第一、三、四象限
9.(2024高三·江苏南京·期中)已知取表中的数值,若具有线性相关关系,线性回归方程为,则=( )
0
1
3
4
a
4.3
4.8
6.7
A.2.2 B.2.4 C.2.5 D.2.6
10.(2024高三·四川成都·期中)某公司一种型号的产品近期销售情况如表:
月份
2
3
4
5
6
销售额(万元)
15.1
16.3
17.0
17.2
18.4
根据上表可得到回归直线方程,据此估计,该公司7月份这种型号产品的销售额为( )
A.18.85万元 B.19.3万元 C.19.25万元 D.19.05万元
11.(2024高一·山东聊城·期末)已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为必过点 ( )
A.(2,2) B.(1.5,0)
C.(1.5,4) D.(1, 2)
12.(2024高三·重庆·期中)已知变量x,y呈线性相关关系,回归方程为,且变量x,y的样本数据如下表所示
x
-2
-1
0
1
2
y
5
4
m
2
1
据此计算出在时,预测值为-0.2,则m的值为( )
A.3 B.2.8 C.2 D.1
13.(2024高二·新疆喀什·期末)变量x,y的数据如下所示:
x
5
4
3
2
1
y
2
1.5
1
1
0.5
回归直线恒过点 .
题型3:根据回归直线方程估计数据
14.(2024高三·黑龙江齐齐哈尔·期末)已知在特定的时期内某人在一个月内每天投入的体育锻炼时间(分钟)与一个月内减轻的体重(斤)的一组数据如表所示:
30
40
50
60
70
一个月内减轻的体重与每天投入的体育锻炼时间之间具有较强的线性相关关系,其线性回归直线方程是,据此模型估计当此人在一个月内每天投入的体育锻炼时间为90分钟时,该月内减轻的体重约为( )
A.斤 B.斤 C.斤 D.斤
15.(2024·四川德阳·模拟预测)某科学兴趣小组的同学认为生物都是由蛋白质构成的,高温可以使蛋白质变性失活,于是想初步探究某微生物的成活率与温度的关系,微生物数量(个)与温度的部分数据如下表:
温度
4
8
10
18
微生物数量(个)
30
22
18
14
由表中数据算得回归方程为,预测当温度为时,微生物数量为 个.
16.(2024高三·江苏镇江月考)如果在一次实验中,测得的五组数值如下表所示,经计算知,y对x的线性回归方程是,预测当时,( )
x
0
1
2
3
4
y
10
15
20
30
35
A.73.5 B.74 C.74.5 D.75
17.(2024高二·吉林白城·期末)牛膝是苋科多年生药用草本植物,具有活血通经、补肝肾、强筋骨等功效,可用于治疗腰膝酸痛等症状.某农户种植牛膝的时间(单位:天)和牛膝的根部直径(单位:)的统计表如下:
20
30
40
50
60
0.8
1.3
2.2
3.3
4.5
由上表可得经验回归方程为,若此农户准备在时采收牛膝,据此模型预测,此批牛滕采收时间预计是第 天.
(二)
线性回归分析
1.解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和 (yi-i)2越小,模型的拟合效果越好.
③决定系数法:R2=1-越接近1,表明回归的效果越好.
3.残差分析及相关指数的应用
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
题型4:残差分析
18.(2024·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
19.(2024·云南楚雄·模拟预测)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
20.(2024高二·山东淄博·期末)随机选取变量和变量的对观测数据,选取的第对观测数据记为,其数值对应如下表所示:
编号
计算得:,,,,.
(1)求变量和变量的样本相关系数(小数点后保留位),判断这两个变量是正相关还是负相关,并推断它们的线性相关程度;
(2)假设变量关于的一元线性回归模型为.
(ⅰ)求关于的经验回归方程,并预测当时的值;
(ⅱ)设为时该回归模型的残差,求、、、、的方差.
参考公式:,,.
21.(2024高二·安徽蚌埠月考)根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为( )
A. B. C. D.
22.(2024高三·海南省直辖县级单位月考)从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:
x
165
165
157
170
175
165
155
170
y
48
57
50
54
64
61
43
59
若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为 .
23.(2024高二·山东青岛·期中)高中女学生的身高预报体重的回归方程是(其中,的单位分别是cm,kg),则此方程在样本点处的残差是 .
题型5:相关指数的应用
24.(2024高二·广东江门月考)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
建立的回归模型拟合效果最好的同学是 .
25.(2024高二·黑龙江牡丹江·期中)对两个变量和进行回归分析,得到一组样本数据:、、、,则下列说法中不正确的是( )
A.由样本数据得到的线性回归方程必过样本点的中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好
D.若变量和之间的相关系数,则变量与之间具有线性相关关系
26.(2024高二·吉林长春·期末)已知与之间的数据如下表:
(1)求关于的线性回归方程;
(2)完成下面的残差表:
并判断(1)中线性回归方程的回归效果是否良好(若,则认为回归效果良好).
附:,,,.
27.(2024高三·陕西西安月考)2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:,
模型②:;
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
15
22
27
40
48
54
60
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)据(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
回归模型
模型①
模型②
79.31
20.2
28.(2024高二·山东青岛·期中)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如下表所示:
月份
物流成本
利润
残差
根据最小二乘法公式求得线性回归方程为.
(1)求的值,并利用已知的线性回归方程求出月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到);若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)决定系数,请说明以上两种模型哪种模型拟合效果更好?
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为万元.请重新根据最小二乘法的思想与公式,求出新的线性回归方程.
附1(修正前的参考数据):
,,,.
附2:.
附3:,.
29.(2024高二·宁夏月考)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是 .①>,②<,③<,④>.
(三)
非线性回归分析
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
题型6:非线性回归分析30.(2024高二·黑龙江大庆·期中)某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
31.(2024高二·河南郑州·期末)用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
32.(2024高二·福建三明·期末)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
年份(年)
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
保有量y/千辆
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
参考数据:,,其中
(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;
33.(2024高三·辽宁沈阳月考)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度的8组观测数据,制成图l所示的散点图,现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;
25
2.9
646
168
422688
50.4
70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出关于的回归方程.附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,,
34.(2024高二·辽宁·期末)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
35.(2024高三·山西·期末)随着国内人均消费水平的提高,居民的运动健身意识不断增强,加之健康与解压需求的增长,使得健身器材行业发展趋势强劲,下表为年中国健身器材市场规模(单位:百亿元),其中年年对应的代码依次为.
年份代码
中国健身器材市场规模
(1)由上表数据可知,可用指数型函数模型拟合与的关系,请建立关于的归方程(,的值精确到);
(2)数据显示年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从年购买过体育用品类的中国消费者中随机抽取人,记购买过运动防护类的消费者人数为,求的分布列及数学期望.
参考数据:
其中,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
一、单选题
1.(2024·四川绵阳·二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,
x
2
4
6
8
y
5
8.2
13
m
则下列说法正确的是( )
A.
B.变量y与x是负相关关系
C.该回归直线必过点
D.x增加1个单位,y一定增加2个单位
2.(23-24高三上·重庆渝中·阶段练习)变量,之间有如下对应数据:
4
4.5
5.5
6
12
11
10
已知变量对呈线性相关关系,且回归方程为,则的值是( )
A.10 B.9 C.8 D.7
3.(22-23高二下·河南南阳·阶段练习)某同学在研究变量之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则( )
4.8
5.8
7
8.3
9.1
2.8
4.1
7.2
9.1
11.8
A. B. C. D.
4.(22-23高三上·河北·期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是( )
A. B.
C. D.
5.(22-23高二下·陕西西安·期末)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使( )最小.
A.总偏差平方和 B.残差平方和
C.回归平方和 D.竖直距离和
6.(2023·山西朔州·模拟预测)为研究每平方米平均建筑费用与楼层数的关系,某开发商收集了一栋住宅楼在建筑过程中,建筑费用的相关信息,将总楼层数与每平米平均建筑成本(单位:万元)的数据整理成如图所示的散点图:
则下面四个回归方程类型中最适宜作为每平米平均建筑费用和楼层数的回归方程类型的是( )
A. B.
C. D.
7.(23-24高三上·山东滨州·期末)某学校一同学研究温差(单位:℃)与本校当天新增感冒人数(单位:人)的关系,该同学记录了5天的数据:
5
6
8
9
12
16
20
25
28
36
由上表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是( )
A.与有正相关关系 B.经验回归直线经过点
C. D.时,残差为0.2
8.(23-24高三上·江苏苏州·阶段练习)已知一组成对数据中y关于x的一元非线性回归方程,已知,则( )
A. B.1 C. D.
二、多选题
9.(2024·全国·模拟预测)下列有关回归分析的结论中,正确的有( )
A.若回归方程为,则变量y与x负相关
B.运用最小二乘法求得的经验回归直线一定经过样本点的中心
C.若决定系数的值越接近于1,表示回归模型的拟合效果越好
D.若散点图中所有点都在直线上,则相关系数
10.(23-24高三上·广东揭阳·期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第天的数据如表所示.
x
1
2
3
4
5
y
21
10a
15a
90
109
根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为,则( )
A.样本相关系数在内 B.当时,残差为-2
C.点一定在经验回归直线上 D.第6天到该医院就诊人数的预测值为130
三、填空题
11.(23-24高三上·广东深圳·期末)某同学收集了变量,的相关数据如下:
x
0.5
2
3
3.5
4
5
y
15
为了研究,的相关关系,他由最小二乘法求得关于的线性回归方程为,经验证回归直线正好经过样本点,则 .
12.(14-15高二上·黑龙江哈尔滨·期末)下列关于回归分析的说法正确的是 (填上所有正确说法的序号)
①相关系数越小,两个变量的相关程度越弱;
②残差平方和越大的模型,拟合效果越好;
③用相关指数来刻画回归效果时,越小,说明模型的拟合效果越好;
④用最小二乘法求回归直线方程,是寻求使取最小值时的、的值;
⑤在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高.
四、解答题
13.(23-24高二上·辽宁沈阳·期末)某班社会实践小组在寒假去书店体验图书销售员工作,并对某图书定价x(元)与当天销量y(本/天)之间的关系进行调查,得到了一组数据,发现变量大致呈线性关系,数据如下表所示
定价x(元)
6
8
10
12
销量y(本/天)
14
11
8
7
参考数据:,
参考公式:回归方程中斜率的最小二乘估计值公式为
(1)根据以上数据,求出y关于x的回归直线方程;
(2)根据回归直线方程,预测当该图书每天的销量为4本时,该图书的定价是多少元?
14.(23-24高三上·黑龙江鸡西·期末)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额:
月份
1
2
3
4
5
带货金额万元
350
440
580
700
880
(1)计算变量的相关系数(结果精确到0.01).
(2)求变量之间的线性回归方程,并据此预测2023年6月份该公司的直播带货金额.
参考数据:,
参考公式:相关系数,线性回归方程的斜率,截距.
15.(23-24高二上·河南焦作·期中)已知高三某学生为了迎接高考,参加了学校的5次模拟考试,其中5次的模拟考试成绩如表所示,
次数(x)
1
2
3
4
5
考试成绩(y)
498
499
497
501
505
设变量x,y满足回归直线方程.
(1)假如高考也符合上述的模拟考试的回归直线方程,高考看作第10次模拟考试,预测2024年的高考的成绩;
(2)从上面的5次考试成绩中随机抽取3次,其中2次成绩都大于500分的概率.
参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.
16.(2023·全国·模拟预测)2015—2019年,中国社会消费品零售额占GDP的比重超过4种,2020年后,中国社会消费品零售额占GDP的比重逐年下降.下表为2018—2022年中国社会消费品零售额(单位:万亿元)及其占GDP的比重y(单位:%)的数据,其中2018—2022年对应的年份代码x依次为1~5.
年份代码x
1
2
3
4
5
社会消费品零售额
37.8
40.8
39.2
44.1
44.0
社会消费品零售额占
GDP的比重y/%
41.3
41.5
39.0
38.6
36.7
(1)由上表数据,是否可用一元线性回归模型拟合y与x的关系,请用相关系数加以说明.
(2)请建立y关于x的一元线性回归方程.
(3)从2018—2022年中国社会消费品零售额这5个数据中随机抽取2个数据.若抽取的2个数据中至少有1个数据大于40.0,求这2个数据恰好有1个数据不小于44.0的概率.
附:,,,,
相关系数.
对于一组数据,其一元线性回归直线的斜率和截距的最小二乘估计公式分别为,.
17.(23-24高三上·云南昆明·阶段练习)云南省统计局发布《全省旅游业发展情况(2015-2022年)》报告,其中2015年至2022年游客总人数y(单位:亿人次)的数据如下表:
年份
2015
2016
2017
2018
2019
2020
2021
2022
年份代号x
1
2
3
4
5
6
7
8
游客总人数y
3.3
4.3
5.7
6.9
8.1
5.3
6.5
8.4
为了预测2023年云南省游客总人数,根据2015年至2022年游客总人数y的数据建立线性回归模型一,得到回归方程:,但由于受到2020年疫情影响,估计预测不准确,若用2015年至2019年数据建立线性回归模型二,得到回归方程:
(1)根据和预测2023年云南省游客总人数(预测数据精确到0.1);
(2)为了检验两种模型的预测效果,对两种模型作残差分析得到:
模型一:总偏差平方和,残差平方和;
模型二:总偏差平方和,残差平方和,
用来比较模型一与模型二的拟合效果(精确到0.001);
(3)根据2020年至2022年游客总人数y的数据建立线性回归模型三,求回归方程,并根据预测2023年云南省游客总人数(预测数据精确到0.1).
参考公式:,,,.
18.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
19.(2024高三·全国·专题练习)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
20.(2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份
1
2
3
4
5
销售量(万件)
4.9
5.8
6.8
8.3
10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
学科网(北京)股份有限公司1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$2024-2025学年《解题秘籍》高二数学同步知识·题型精讲精练讲义(人教A版2019选择性必修第三册)
8.2一元线性回归模型及其应用6题型分类
一、一元线性回归模型
我们称为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
二、线性回归方程
1.我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.
2.回归直线方程过样本点的中心(,),是回归直线方程最常用的一个特征.
三、最小二乘法
这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(least squares estimate ),其中.
四、残差的概念
1.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
五、刻画回归效果的方式
1.残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
2.残差平方和法:残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
3.利用R2刻画回归效果:决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
(一)
求回归直线方程
1.回归直线方程:
我们将=x+称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.其中.
2.求线性回归方程的一般步骤:
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,x,xiyi.
(5)代入公式计算,,公式为
(6)写出线性回归方程=x+.
题型1:求回归直线方程
1.(2024高二·江西赣州·期末)大气污染物(直径不大于2.5的颗粒物)的浓度超过一定限度会影响人的身体健康.为研究浓度y(单位:)与汽车流量x(单位:千辆)的线性关系,研究人员选定了10个城市,在每个城市建立交通监测点,统计了24h内过往的汽车流量以及同时段空气中的浓度,得到如下数据:
城市编号
1
2
3
4
5
6
7
8
9
10
总和
x
1.300
1.444
0.786
1.652
1.756
1.754
1.200
1.500
1.200
0.908
13.5
y
66
76
21
170
156
120
72
120
100
129
1030
并计算得,,.
(1)求变量关于的线性回归方程;
(2)根据内浓度确定空气质量等级,浓度在0~35为优,35~75为良,75~115为轻度污染,115~150为中度污染,150~250为重度污染,已知某城市内过往的汽车流量为1360辆,判断该城市的空气质量等级.
参考公式:线性回归方程为,其中以.
【答案】(1)
(2)轻度污染
【分析】(1)根据公式,求线性回归方程;
(2)根据线性回归直线方程,预测空气中的浓度,进行判断.
【解析】(1)由题意得,
又因为,
所以
所以
所以变量y关于x的线性回归方程为.
(2)当辆千辆时,可得
因为
所以该城市的空气质量等级为轻度污染.
2.(2024高三·重庆月考)在入室盗窃类案件中,出现频率最高的痕迹物证之一就是足迹. 负重行走对足迹步伐特征影响的规律强,而且较为稳定. 正在行走的人在负重的同时,步长变短,步宽变大,步角变大. 因此, 以身高分别为170cm, 175cm, 180cm的人员各 20名作为实验对象,让他们采取双手胸前持重物的负重方式行走,得到实验对象在负重0kg,5kg,10kg,15kg,20kg状态下相对稳定的步长数据平均值. 并在不同身高情况下,建立足迹步长s(单位:cm)关于负重x(单位:kg)的三个经验回归方程. 根据身高 170cm组数据建立线性回归方程①: ;根据身高 175cm组数据建立线性回归方程②: 根据身高 180cm 组数据建立线性回归方程③: .
(1)根据身高 180cm组的统计数据,求,的值,并解释参数的含义;
身高 180cm不同负重情况下的步长数据平均值
负重x/kg
0
5
10
15
20
足迹步长s/cm
74.35
73.50
71.80
68.60
65.75
(2)在一起盗窃案中,被盗窃物品重为9kg,在现场勘查过程中,测量得犯罪嫌疑人往返时足迹步长的差值为4.464cm,推测该名嫌疑人的身高,并说明理由.
附: .为回归方程, ,,,
【答案】(1),,参数的含义详见解析
(2)嫌疑人身高为175cm,理由详见解析
【分析】(1)根据回归直线相关公式计算可得;
(2)根据参数的几何意义计算即可判断.
【解析】(1)由题意可知:,,,
所以,;
的含义表示,负重每增加足迹步长减少.
(2)设被盗窃物品重为9kg时,身高170cm的步长误差为,高175cm的步长误差为,高180cm的步长误差为,
由题意可得,,,,
因为与测量得犯罪嫌疑人往返时足迹步长的差值最接近,
所以犯罪嫌疑人身高为175cm.
3.(2024·甘肃兰州·模拟预测)某种产品的广告费支出x(单位:万元)与销售额y(万元)之间有如下一组数据:
广告费支出x
2
4
5
6
8
销售额y
30
40
60
50
70
(1)求出样本点中心
(2)求回归直线方程(其中,)
【答案】(1)
(2)
【分析】(1)根据题意求,进而可得结果;
(2)根据题意先求,,代入公式运算求解即可.
【解析】(1)由题意可得:,
,
所以样本点中心为.
(2)由题意可得:,
,
所以,,
所以回归直线方程为.
4.(2024高三·黑龙江牡丹江·期末)近期,一些地方中小学生“课间10分钟”问题受到社会广泛关注,国家号召中小学要增加学生的室外活动时间.但是进入12月后,天气渐冷,很多学生因气温低而减少了外出活动次数.为了解本班情况,一位同学统计了一周(5天)的气温变化和某一固定课间该班级的学生出楼人数,得到如下数据:
温度(零下)
7
10
11
15
17
出楼人数
20
16
17
10
7
(1)利用最小二乘法,求变量之间的线性回归方程;
附:用最小二乘法求线性回归方程的系数:
(2)预测当温度为时,该班级在本节课间的出楼人数(人数:四舍五入取整数).
(3)为了号召学生能够增加室外活动时间,学校举行拔河比赛,采取3局2胜制(无平局).在甲、乙两班的较量中,甲班每局获胜的概率均为,设随机变量X表示甲班获胜的局数,求的分布列和期望.
【答案】(1)
(2)19
(3)分布列见解析;期望为
【分析】(1)由已知求出的值,求出线性回归方程即可;
(2)将代入线性回归方程求解即可;
(3)先写出随机变量X的可能取值,再列出分布列,最后求出期望即可.
【解析】(1),
,
,
,,
回归直线方程为.
(2)当时,(人),
所以,预测当温度为时,该班级在本节课间的出楼人数为19人.
(3)随机变量可取0,1,2.
,
,
,
所以的分布列为:
0
1
2
p
所以的数学期望为.
5.(2024高三·浙江·期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
第x天
1
2
3
4
5
新增y人
2
3
5
8
12
已知现用最小二乘法算得线性回归方程是( )
A. B. C. D.
【答案】D
【分析】根据所给数据,及参考公式,求线性回归方程即可.
【解析】由题中的数据可知
所以
所以
所以y关于x的线性回归方程为
故选:D
6.(2024高三·云南月考)中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):
中国体育代表团夏季奥运会获得金牌数
届数
第27届
第28届
第29届
第30届
第31届
第32届
届数代码
1
2
3
4
5
6
地点
2000年
悉尼
2004年
雅典
2008年
北京
2012年
伦敦
2016年
里约热内卢
2021年
东京
金牌数
28
32
48
38
26
38
根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为( )
(精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.
A.29 B.33 C.37 D.45
【答案】C
【分析】先求出,然后由回归直线的方程公式求出方程,预测2024年对应代入回归方程即可求解.
【解析】,
,所以,
所以关于的线性回归方程为.
2024年对应,代入回归方程得,
故选:C.
7.(2024高三·安徽月考)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:
会员序号
1
2
3
4
5
6
7
8
9
10
总和
锻炼时长(小时)
3
4
2
5
6
4
5
3
4
4
40
体重减少量(千克)
1.0
1.5
1.0
2.0
2.5
1.8
2.0
1.0
1.6
2.0
16.4
并计算得:
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;
(2)求经验回归方程(结果精确到 0.01 );
(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.
(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)
【答案】(1)答案见解析
(2);
(3)答案见解析
【分析】(1) 利用相关系数公式直接代入数据求解即可;
(2) 利用公式,先求一次项系数,再利用经过样本中心点,可求出,从而可得回归直线方程;
(3)利用一次项系数可解释会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际效果相当,说明具有参考价价.
【解析】(1)由表可知:
所以= ,
因为与的相关系数接近1,
所以与的线性相关程度很高,可用线性回归模型拟合与的关系.
(2)由题可知: =
,
所以
(3)由(2)可知:根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,
预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,
因此实际结果与预测结果基本一致,说明该回归模型具有参考价值;
造成一定差异的原因可能是由于样本数据过少,
或者造成体重减少的原因还受其他因素影响,
比如睡眠,饮食、锻炼强度以及效果等.
题型2:样本中心的应用
8.(2024·山东潍坊·模拟预测)具有线性相关关系的变量的一组数据如下:
x
0
1
2
3
y
-5
-4.5
-4.2
-3.5
其线性回归直线方程为,则回归直线经过( )
A.第一、二、三象限 B.第二、三、四象限
C.第一、二、四象限 D.第一、三、四象限
【答案】D
【分析】根据x,y呈正相关,得到,再由样本中心在第四象限判断.
【解析】解:由图表中的数据知:x,y呈正相关,
所以,
又,
则样本中心为,在第四象限,
所以回归直线经过第一、三、四象限,
故选:D
9.(2024高三·江苏南京·期中)已知取表中的数值,若具有线性相关关系,线性回归方程为,则=( )
0
1
3
4
a
4.3
4.8
6.7
A.2.2 B.2.4 C.2.5 D.2.6
【答案】A
【分析】根据线性回归方程经过样本中心,计算即可求解.
【解析】由题意可知:,,
所以样本中心为,
代入回归方程有:,解得.
故选:.
10.(2024高三·四川成都·期中)某公司一种型号的产品近期销售情况如表:
月份
2
3
4
5
6
销售额(万元)
15.1
16.3
17.0
17.2
18.4
根据上表可得到回归直线方程,据此估计,该公司7月份这种型号产品的销售额为( )
A.18.85万元 B.19.3万元 C.19.25万元 D.19.05万元
【答案】D
【分析】根据题意,由回归直线方程过样本点的中心,即可求得,然后代入计算,即可得到结果.
【解析】由表中数据可得,,
因为回归直线过样本点的中心,所以,解得,
所以回归直线方程为,
则该公司7月份这种型号产品的销售额为万元.
故选:D
11.(2024高一·山东聊城·期末)已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为必过点 ( )
A.(2,2) B.(1.5,0)
C.(1.5,4) D.(1, 2)
【答案】C
【分析】分别求出的均值即得.
【解析】由已知,,
所以回归直线一定过中心点.
故选:C.
12.(2024高三·重庆·期中)已知变量x,y呈线性相关关系,回归方程为,且变量x,y的样本数据如下表所示
x
-2
-1
0
1
2
y
5
4
m
2
1
据此计算出在时,预测值为-0.2,则m的值为( )
A.3 B.2.8 C.2 D.1
【答案】C
【分析】由题意求出,即得回归直线方程,表示出样本中心点坐标,代入回归方程,即可求得答案.
【解析】由题意知回归方程为过点,则,
即;
又,,
由于回归方程为必过样本中心点,
故,
故选:C
13.(2024高二·新疆喀什·期末)变量x,y的数据如下所示:
x
5
4
3
2
1
y
2
1.5
1
1
0.5
回归直线恒过点 .
【答案】
【分析】根据回归直线方程的性质求解变量的平均值,即可确定定点.
【解析】变量的平均值为,变量的平均值为,
故回归直线恒过点.
故答案为:.
题型3:根据回归直线方程估计数据
14.(2024高三·黑龙江齐齐哈尔·期末)已知在特定的时期内某人在一个月内每天投入的体育锻炼时间(分钟)与一个月内减轻的体重(斤)的一组数据如表所示:
30
40
50
60
70
一个月内减轻的体重与每天投入的体育锻炼时间之间具有较强的线性相关关系,其线性回归直线方程是,据此模型估计当此人在一个月内每天投入的体育锻炼时间为90分钟时,该月内减轻的体重约为( )
A.斤 B.斤 C.斤 D.斤
【答案】A
【分析】先求出样本点中心,代入回归方程求出,再将代入计算即可.
【解析】由表中数据可得
,
,
将代入得,解得,
即,
则当时,.
故选:A.
15.(2024·四川德阳·模拟预测)某科学兴趣小组的同学认为生物都是由蛋白质构成的,高温可以使蛋白质变性失活,于是想初步探究某微生物的成活率与温度的关系,微生物数量(个)与温度的部分数据如下表:
温度
4
8
10
18
微生物数量(个)
30
22
18
14
由表中数据算得回归方程为,预测当温度为时,微生物数量为 个.
【答案】9
【分析】求出样本点中心,代入回归方程得到,得回归方程,可进行预测.
【解析】由表格数据可知,,,
因为点在直线上,所以,
即,故当时,,
即预测当温度为时,微生物数量为9个.
故答案为:9
16.(2024高三·江苏镇江月考)如果在一次实验中,测得的五组数值如下表所示,经计算知,y对x的线性回归方程是,预测当时,( )
x
0
1
2
3
4
y
10
15
20
30
35
A.73.5 B.74 C.74.5 D.75
【答案】B
【分析】根据题意可得样本中心点为,代入回归方程可得,再即可得结果.
【解析】由题意可得:,
即样本中心点为,则,解得,
所以,
令时,,
预测当时,.
故选:B.
17.(2024高二·吉林白城·期末)牛膝是苋科多年生药用草本植物,具有活血通经、补肝肾、强筋骨等功效,可用于治疗腰膝酸痛等症状.某农户种植牛膝的时间(单位:天)和牛膝的根部直径(单位:)的统计表如下:
20
30
40
50
60
0.8
1.3
2.2
3.3
4.5
由上表可得经验回归方程为,若此农户准备在时采收牛膝,据此模型预测,此批牛滕采收时间预计是第 天.
【答案】110
【分析】由表格求出中心点坐标从而得出,利用回归直线估计即可.
【解析】,,
又过点,所以,即,
当时,,所以此批牛膝采收时间预计是第110天.
故答案为:110
(二)
线性回归分析
1.解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和 (yi-i)2越小,模型的拟合效果越好.
③决定系数法:R2=1-越接近1,表明回归的效果越好.
3.残差分析及相关指数的应用
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差1,2,…,n来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
题型4:残差分析
18.(2024·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【答案】C
【分析】对于响应变量,通过观测得到的数据为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.
【解析】因为观测值减去预测值称为残差,
所以当时,,
所以残差为.
故选:C.
19.(2024·云南楚雄·模拟预测)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
【答案】/
【分析】利用样本中心在其经验回归方程为上,求出,再计算当时的残差即可.
【解析】经验回归直线过样本点的中心,,,
经验回归方程为.当时,,残差为.
故答案为:.
20.(2024高二·山东淄博·期末)随机选取变量和变量的对观测数据,选取的第对观测数据记为,其数值对应如下表所示:
编号
计算得:,,,,.
(1)求变量和变量的样本相关系数(小数点后保留位),判断这两个变量是正相关还是负相关,并推断它们的线性相关程度;
(2)假设变量关于的一元线性回归模型为.
(ⅰ)求关于的经验回归方程,并预测当时的值;
(ⅱ)设为时该回归模型的残差,求、、、、的方差.
参考公式:,,.
【答案】(1)答案见解析
(2)①答案见解析;②
【分析】(1)将数据代入相关系数公式,求出的值,判断可得出结论;
(2)①将参考数据代入最小二乘法公式,求出、的值,可得出关于的经验回归方程,然后将代入经验回归方程,可得出的预测值;
②计算出、、、、,利用方差公式可求得结果.
【解析】(1)解:,
所以,这两个变量负相关,且具有较强的线性相关性.
(2)解:①,则,
所以,关于的经验回归方程为,
当时,则,
所以,当时,的预测值为;
②由,计算得该回归模型的残差如下表所示:
所以,残差的方差为.
21.(2024高二·安徽蚌埠月考)根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为( )
A. B. C. D.
【答案】B
【分析】根据样本点的横坐标和回归直线方程得出y的估计值,根据残差定义计算.
【解析】把代入,得,
所以在样本点处的残差.
故选:B.
22.(2024高三·海南省直辖县级单位月考)从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:
x
165
165
157
170
175
165
155
170
y
48
57
50
54
64
61
43
59
若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为 .
【答案】4
【分析】利用残差的定义直接求解.
【解析】已知y与x的线性同归方程为
当时:,相应的残差为:
故答案为:4
23.(2024高二·山东青岛·期中)高中女学生的身高预报体重的回归方程是(其中,的单位分别是cm,kg),则此方程在样本点处的残差是 .
【答案】1.5
【分析】利用回归直线方程,求出的估计值,然后求解残差的绝对值.
【解析】由样本数据得到,女大学生的身高预报体重的回归方程是,
当时,,
此方程在样本处残差为:.
故答案为:1.5.
题型5:相关指数的应用
24.(2024高二·广东江门月考)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
建立的回归模型拟合效果最好的同学是 .
【答案】选甲 相关指数R2越大,表示回归模型拟合效果越好.
【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.
【解析】相关指数 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.
【点睛】如果两个变量间的关系是相关关系,相关指数 越大,相关系数 越接近1,残差平方和越接近0,都代表拟合效果越好.
25.(2024高二·黑龙江牡丹江·期中)对两个变量和进行回归分析,得到一组样本数据:、、、,则下列说法中不正确的是( )
A.由样本数据得到的线性回归方程必过样本点的中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好
D.若变量和之间的相关系数,则变量与之间具有线性相关关系
【答案】C
【分析】根据回归直线过样本中心点可判断A选项;利用残差平方和与拟合效果的关系可判断B选项;利用相关指数与拟合效果的关系可判断C选项;利用相关系数与线性相关关系可判断D选项.
【解析】对于A选项,由样本数据得到的线性回归方程必过样本点的中心,A对;
对于B选项,残差平方和越小的模型,拟合的效果越好,B对;
对于C选项,用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越差,C错;
对于D选项,若变量和之间的相关系数,,则变量与之间具有线性相关关系,D对.
故选:C.
26.(2024高二·吉林长春·期末)已知与之间的数据如下表:
(1)求关于的线性回归方程;
(2)完成下面的残差表:
并判断(1)中线性回归方程的回归效果是否良好(若,则认为回归效果良好).
附:,,,.
【答案】(1);(2)表格见解析,良好.
【分析】(1)由题意求出,,代入公式求值,从而得到回归直线方程;(2)根据公式计算并填写残差表;由公式计算相关指数,结合题意得出统计结论.
【解析】(1)由已知图表可得,,,,
则,,
故.
(2)∵,∴,,,,,则残差表如下表所示,
∵ ,
∴,
∴该线性回归方程的回归效果良好.
【点睛】本题考查了线性回归直线方程与相关系数的应用问题,是中档题.
27.(2024高三·陕西西安月考)2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:,
模型②:;
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
15
22
27
40
48
54
60
(1)根据表格中的数据,比较模型①,②的相关指数的大小;
(2)据(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
回归模型
模型①
模型②
79.31
20.2
【答案】(1)
(2)收益为
【分析】(1)对于模型①模型②,计算出, ,对应的相关指数,可得答案;
(2)故模型②拟合精度更高、更可靠,可计算出对A型材料进行应用改造的投入为17亿元时的直接收益.
【解析】(1)对于模型①,
对应的,
故对应的,
故对应的相关指数,对于模型②,
同理对应的相关指数,.
(2)故模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为.
28.(2024高二·山东青岛·期中)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如下表所示:
月份
物流成本
利润
残差
根据最小二乘法公式求得线性回归方程为.
(1)求的值,并利用已知的线性回归方程求出月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到);若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)决定系数,请说明以上两种模型哪种模型拟合效果更好?
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为万元.请重新根据最小二乘法的思想与公式,求出新的线性回归方程.
附1(修正前的参考数据):
,,,.
附2:.
附3:,.
【答案】(1),;(2);线性回归模型拟合程度更好;(3).
【分析】(1)将代入回归直线方程,可得出的值,利用平均数公式可求得的值,进而可求得月份对应的残差值;
(2)计算出线性回归模型的决定系数的值,与比较大小后可得出结论;
(3)修正数据后,计算出、的值,代入最小二乘法公式求出、的值,即可得出回归直线的方程.
【解析】(1)因为,,所以
,解得,
所以月份对应的残差值;
(2)由已知公式得,
,
所以线性回归模型拟合程度更好;
(3)由(1)可知,第八组数据的利润应为(万元)
此时,又,,,
所以,所以,
所以重新采集数据后,线性回归方程为.
29.(2024高二·宁夏月考)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是 .①>,②<,③<,④>.
【答案】①③
【分析】残差平方和越小越好,带状区域的宽度越窄,说明模型的拟合精度越高,越大,模型的拟合效果越好,相关指数越大,模型的拟合效果越好.
【解析】解:用相关指数的值判断模型的拟合效果,越大,说明残差平方和越小,模型的拟合效果越好,因为第①个线性模型比第②个线性模型拟合效果好,所以,;
故答案为:①③
(三)
非线性回归分析
求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
题型6:非线性回归分析
30.(2024高二·黑龙江大庆·期中)某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
【答案】D
【分析】根据散点的分布可得出合适的回归方程类型.
【解析】由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.
A中,是直线型,均匀增长,不符合要求;
B中,是二次函数型,图象呈现下凸,增长也较快,不符合要求;
C中,是指数型,爆炸式增长,增长快,不符合要求;
D中,是对数型,增长缓慢,符合要求.
故对数型最适宜该回归模型.
故选:D.
31.(2024高二·河南郑州·期末)用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
【答案】D
【分析】由两边取对数,与,利用待定系数法求解.
【解析】解:因为,,
所以,
又,
所以,解得,
所以,
故选:D
32.(2024高二·福建三明·期末)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
年份(年)
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
保有量y/千辆
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
参考数据:,,其中
(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;
【答案】(1)作图见解析,选择的函数模型是,;
(2)2028年.
【分析】(1)根据题中所给公式,结合对数函数的性质进行求解即可;
(2)根据指数函数的性质,结合对数运算性质进行求解即可.
【解析】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是,令,则
因为,
所以,,
,所以;
(2)设传统能源汽车保有量每年下降的百分比为r,依题意得,),解得,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有x,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有
,所以,
解得,故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.
33.(2024高三·辽宁沈阳月考)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度的8组观测数据,制成图l所示的散点图,现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:表中;;;
25
2.9
646
168
422688
50.4
70308
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)求出关于的回归方程.附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)模型①;
(2)
【分析】(1)根据残差点的分布情况分析即可.
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【解析】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度x可以用线性回归方程来拟合,则.
于是, ,
因此关于的线性回归方程为,即,
所以产卵数y关于温度x的回归方程为.
34.(2024高二·辽宁·期末)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【解析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
35.(2024高三·山西·期末)随着国内人均消费水平的提高,居民的运动健身意识不断增强,加之健康与解压需求的增长,使得健身器材行业发展趋势强劲,下表为年中国健身器材市场规模(单位:百亿元),其中年年对应的代码依次为.
年份代码
中国健身器材市场规模
(1)由上表数据可知,可用指数型函数模型拟合与的关系,请建立关于的归方程(,的值精确到);
(2)数据显示年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从年购买过体育用品类的中国消费者中随机抽取人,记购买过运动防护类的消费者人数为,求的分布列及数学期望.
参考数据:
其中,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)分布列见解析,
【分析】(1)设,可得,结合参考数据及公式求,由此可得结论;
(2)由条件确定的可能取值,判断服从二项分布,再求其取各值的概率,由此可得分布列,再利用二项分布期望公式求期望.
【解析】(1)两边同时取自然对数得.
设,所以,
因为,,,
所以.
把代入,得,
可得,.
所以,
即关于的回归方程为.
(2)由题意,得的所有可能取值依次为,,,,,且,
,,
,,
,
所以的分布列为
0
1
2
3
4
.
一、单选题
1.(2024·四川绵阳·二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,
x
2
4
6
8
y
5
8.2
13
m
则下列说法正确的是( )
A.
B.变量y与x是负相关关系
C.该回归直线必过点
D.x增加1个单位,y一定增加2个单位
【答案】C
【分析】根据给定数据及回归方程求出样本中心点,再逐项判断即可得解.
【详解】依题意,,
由,解得,A错误;
回归方程中,,则变量y与x是正相关关系,B错误;
由于样本中心点为,因此该回归直线必过点,C正确;
由回归方程知,x增加1个单位,y大约增加2个单位,D错误.
故选:C
2.(23-24高三上·重庆渝中·阶段练习)变量,之间有如下对应数据:
4
4.5
5.5
6
12
11
10
已知变量对呈线性相关关系,且回归方程为,则的值是( )
A.10 B.9 C.8 D.7
【答案】B
【分析】计算出,代入回归方程,求出的值.
【详解】,
则有,解得
故选:B.
3.(22-23高二下·河南南阳·阶段练习)某同学在研究变量之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则( )
4.8
5.8
7
8.3
9.1
2.8
4.1
7.2
9.1
11.8
A. B. C. D.
【答案】D
【分析】画出散点图,数形结合得到答案.
【详解】画出散点图如下:
从而可以看出中,.
故选:D
4.(22-23高三上·河北·期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是( )
A. B.
C. D.
【答案】D
【分析】根据残差的特点,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.即可得到答案.
【详解】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,
带状区域的宽度越窄,说明模型的拟合精度越高,显然D选项的拟合精度最高.
故选:D.
5.(22-23高二下·陕西西安·期末)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使( )最小.
A.总偏差平方和 B.残差平方和
C.回归平方和 D.竖直距离和
【答案】B
【分析】使用最小二乘法的定义进行求解.
【详解】最小二乘法求回归方程,是为了使残差平方和最小,B正确;其他选项错误.
故选:B
6.(2023·山西朔州·模拟预测)为研究每平方米平均建筑费用与楼层数的关系,某开发商收集了一栋住宅楼在建筑过程中,建筑费用的相关信息,将总楼层数与每平米平均建筑成本(单位:万元)的数据整理成如图所示的散点图:
则下面四个回归方程类型中最适宜作为每平米平均建筑费用和楼层数的回归方程类型的是( )
A. B.
C. D.
【答案】C
【分析】通过观察散点图并结合选项函数的类型得出结果.
【详解】观察散点图,可知是一个单调递减的曲线图,结合选项函数的类型可得回归方程类型是反比例类型,故C正确.
故选:C.
7.(23-24高三上·山东滨州·期末)某学校一同学研究温差(单位:℃)与本校当天新增感冒人数(单位:人)的关系,该同学记录了5天的数据:
5
6
8
9
12
16
20
25
28
36
由上表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是( )
A.与有正相关关系 B.经验回归直线经过点
C. D.时,残差为0.2
【答案】C
【分析】根据和的变化规律,即可判断A;计算,即可判断B;将样本点中心代入回归直线方程,即可求,即可判断C;根据回归直线方程计算时的,计算,即可判断D.
【详解】由表格可知,越大,越大,所以与有正相关关系,故A正确;
,,
样本点中心为,经验回归直线经过点,故B正确;
将样本点中心代入直线方程,得,所以,故C错误;
,当 时,,,故D正确.
故选:C
8.(23-24高三上·江苏苏州·阶段练习)已知一组成对数据中y关于x的一元非线性回归方程,已知,则( )
A. B.1 C. D.
【答案】B
【分析】根据题意,求得和的平均数,根据样本中心满足回归方程,即可求解.
【详解】因为y关于x的一元非线性回归方程,
设,则回归直线方程,
又因为,可得,即样本中心为,
将样本中心代入回归直线方程,可得,解得,即.
故选:B.
二、多选题
9.(2024·全国·模拟预测)下列有关回归分析的结论中,正确的有( )
A.若回归方程为,则变量y与x负相关
B.运用最小二乘法求得的经验回归直线一定经过样本点的中心
C.若决定系数的值越接近于1,表示回归模型的拟合效果越好
D.若散点图中所有点都在直线上,则相关系数
【答案】ABC
【分析】根据统计案例相关知识逐项分析判断.
【详解】对于选项A:因为回归方程为,可知,
所以变量y与x负相关,故A正确;
对于选项B:由线性回归方程的性质可知:回归直线一定经过样本点的中心,故B正确;
对于选项C:决定系数的值越接近于1,表示回归模型的拟合效果越好,故C正确;
对于选项D:散点图中所有点都在直线上,则,
且,所以变量y与x正相关,即,可知,故D错误.
故选:ABC.
10.(23-24高三上·广东揭阳·期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第天的数据如表所示.
x
1
2
3
4
5
y
21
10a
15a
90
109
根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为,则( )
A.样本相关系数在内 B.当时,残差为-2
C.点一定在经验回归直线上 D.第6天到该医院就诊人数的预测值为130
【答案】AD
【分析】x,y具有较强的正相关关系,可判断相关系数的范围,判断A;计算x,y的平均值,代入回归直线方程求出a的值,即可求出时的预测值,求得残差,判断B;看是否适合回归直线方程,判断C;将代入回归直线方程,求出预测值,判断D.
【详解】由题意可知x,y具有较强的正相关关系,故样本相关系数在内,A正确;
根据题意得,
故,解得,
故当时,,残差为,B错误;
点即点,当时,,
即点不在经验回归直线上,C错误;
当时,,即第6天到该医院就诊人数的预测值为130,D正确,
故选:AD
三、填空题
11.(23-24高三上·广东深圳·期末)某同学收集了变量,的相关数据如下:
x
0.5
2
3
3.5
4
5
y
15
为了研究,的相关关系,他由最小二乘法求得关于的线性回归方程为,经验证回归直线正好经过样本点,则 .
【答案】69
【分析】结合线性回归方程必过样本中心点求解.
【详解】因为线性回归方程经过样本点,所以.
因为:,所以.
所以:.
故答案为:69
12.(14-15高二上·黑龙江哈尔滨·期末)下列关于回归分析的说法正确的是 (填上所有正确说法的序号)
①相关系数越小,两个变量的相关程度越弱;
②残差平方和越大的模型,拟合效果越好;
③用相关指数来刻画回归效果时,越小,说明模型的拟合效果越好;
④用最小二乘法求回归直线方程,是寻求使取最小值时的、的值;
⑤在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高.
【答案】④⑤
【分析】利用相关系数与两个变量的相关程度的关系可判断①;利用残差的定义可判断②;利用相关指数与模型的拟合效果之间的关系可判断③;利用最小二乘法的概念可判断④;利用残差图可判断⑤.
【详解】对于①,对于相关系数,越接近于,两个变量的相关程度越弱,①错;
对于②,残差平方和越小的模型,拟合效果越好,②错;
对于③,用相关指数来刻画回归效果时,越大,说明模型的拟合效果越好,③错;
对于④,用最小二乘法求回归直线方程,是寻求使取最小值时的、的值,④对;
对于⑤,在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,⑤对.
故答案为:④⑤.
四、解答题
13.(23-24高二上·辽宁沈阳·期末)某班社会实践小组在寒假去书店体验图书销售员工作,并对某图书定价x(元)与当天销量y(本/天)之间的关系进行调查,得到了一组数据,发现变量大致呈线性关系,数据如下表所示
定价x(元)
6
8
10
12
销量y(本/天)
14
11
8
7
参考数据:,
参考公式:回归方程中斜率的最小二乘估计值公式为
(1)根据以上数据,求出y关于x的回归直线方程;
(2)根据回归直线方程,预测当该图书每天的销量为4本时,该图书的定价是多少元?
【答案】(1);
(2).
【分析】(1)利用最小二乘法直接计算求回归直线方程即可;
(2)利用回归直线方程代入计算即可.
【详解】(1)由表格可知,
则,
所以,
则,故;
(2)由(1)知,当时,,
即当该图书每天的销量为4本时,该图书的定价是元.
14.(23-24高三上·黑龙江鸡西·期末)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额:
月份
1
2
3
4
5
带货金额万元
350
440
580
700
880
(1)计算变量的相关系数(结果精确到0.01).
(2)求变量之间的线性回归方程,并据此预测2023年6月份该公司的直播带货金额.
参考数据:,
参考公式:相关系数,线性回归方程的斜率,截距.
【答案】(1)0.99
(2),986万元.
【分析】(1)直接代入相关系数方程即可.
(2)求出线性回归方程,再代入即可.
【详解】(1)
(2)因为,
所以,
所以变量之间的线性回归方程为,
当时,(万元).
所以预测2023年6月份该公司的直播带货金额为986万元.
15.(23-24高二上·河南焦作·期中)已知高三某学生为了迎接高考,参加了学校的5次模拟考试,其中5次的模拟考试成绩如表所示,
次数(x)
1
2
3
4
5
考试成绩(y)
498
499
497
501
505
设变量x,y满足回归直线方程.
(1)假如高考也符合上述的模拟考试的回归直线方程,高考看作第10次模拟考试,预测2024年的高考的成绩;
(2)从上面的5次考试成绩中随机抽取3次,其中2次成绩都大于500分的概率.
参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)预测2024年的高考成绩为511.2分;
(2).
【分析】(1)依题意求出,,即可求出、,从而得到回归直线方程,再将代入计算可得;
(2)利用列举法列出所有可能结果,再根据古典概型的概率公式计算可得.
【详解】(1)由表得,,
∴.
将点代入回归直线方程可得,解得,
∴回归直线方程为.
当时,,
∴预测2024年的高考成绩为511.2分.
(2)记“从5次考试成绩中选出3次成绩”为事件,
则事件的情况有,,,,
,,,,
,,共10种情况,
其中2次成绩都大于500分情况有,,,共3种情况,
∴所求的概率.
16.(2023·全国·模拟预测)2015—2019年,中国社会消费品零售额占GDP的比重超过4种,2020年后,中国社会消费品零售额占GDP的比重逐年下降.下表为2018—2022年中国社会消费品零售额(单位:万亿元)及其占GDP的比重y(单位:%)的数据,其中2018—2022年对应的年份代码x依次为1~5.
年份代码x
1
2
3
4
5
社会消费品零售额
37.8
40.8
39.2
44.1
44.0
社会消费品零售额占
GDP的比重y/%
41.3
41.5
39.0
38.6
36.7
(1)由上表数据,是否可用一元线性回归模型拟合y与x的关系,请用相关系数加以说明.
(2)请建立y关于x的一元线性回归方程.
(3)从2018—2022年中国社会消费品零售额这5个数据中随机抽取2个数据.若抽取的2个数据中至少有1个数据大于40.0,求这2个数据恰好有1个数据不小于44.0的概率.
附:,,,,
相关系数.
对于一组数据,其一元线性回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)可以用一元线性回归模型拟合y与x的关系;说明见解析;
(2);
(3).
【分析】
(1)先运用相关系数公式进行计算,再根据结果说明即可;
(2)代入公式先计算,再利用样本中心点坐标满足一元线性回归方程计算即得;
(3)利用条件概率公式计算概率即可.
【详解】(1)
由题意,知,.
因为,,,所以
,
所以.
所以y与x的线性相关程度高,可以用一元线性回归模型拟合y与x的关系.
(2)
因为,,,,
所以.
把点的坐标代入,得,
所以y关于x的一元线性回归方程为.
(3)
记“抽取的2个数据中至少有1个数据大于40.0”为事件A,
“这2个数据恰好有1个数据不小于44.0”为事件B,则“抽取的2个数据中
至少有1个数据大于40.0时,恰好有1个数据不小于44.0” 为事件,
所以.
17.(23-24高三上·云南昆明·阶段练习)云南省统计局发布《全省旅游业发展情况(2015-2022年)》报告,其中2015年至2022年游客总人数y(单位:亿人次)的数据如下表:
年份
2015
2016
2017
2018
2019
2020
2021
2022
年份代号x
1
2
3
4
5
6
7
8
游客总人数y
3.3
4.3
5.7
6.9
8.1
5.3
6.5
8.4
为了预测2023年云南省游客总人数,根据2015年至2022年游客总人数y的数据建立线性回归模型一,得到回归方程:,但由于受到2020年疫情影响,估计预测不准确,若用2015年至2019年数据建立线性回归模型二,得到回归方程:
(1)根据和预测2023年云南省游客总人数(预测数据精确到0.1);
(2)为了检验两种模型的预测效果,对两种模型作残差分析得到:
模型一:总偏差平方和,残差平方和;
模型二:总偏差平方和,残差平方和,
用来比较模型一与模型二的拟合效果(精确到0.001);
(3)根据2020年至2022年游客总人数y的数据建立线性回归模型三,求回归方程,并根据预测2023年云南省游客总人数(预测数据精确到0.1).
参考公式:,,,.
【答案】(1)亿人次,亿人次
(2)模型二的拟合效果更好
(3),10(亿人次)
【分析】(1)代入回归方程求解,
(2)由参考公式计算后判断,
(3)由参考公式求解回归方程.
【详解】(1)根据预测2023年云南省游客总人数为(亿人次);
根据预测2023年云南省游客总人数为(亿人次).
(2)模型一:;
模型二:.
因为,所以模型二的拟合效果更好.
(3)设2020年至2022年的年份代号x分别为1,2,3,
则,,,
,所以,,
所以:,所以当时,.
所以根据预测2023年云南省游客总人数为10(亿人次).
18.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表为年—年我国在线直播生活购物用户规模(单位:亿人),其中年—年对应的代码依次为—.
年份代码
市场规模
,,,其中
参考公式:对于一组数据、、、,其经验回归直线的斜率和截距的最小二乘估计公式分别为,.
(1)由上表数据可知,若用函数模型拟合与的关系,请估计年我国在线直播生活购物用户的规模(结果精确到);
(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率,现从我国在线直播购物用户中随机抽取人,记这人中选择在品牌官方直播间购物的人数为,若,求的数学期望和方差.
【答案】(1)亿人
(2),
【分析】(1)将题中数据代入最小二乘法公式,求出的值,即可得出与的拟合函数关系式,再将代入函数关系式,即可得出结论;
(2)由题意可知,,由结合独立重复试验的概率公式可求得的值,然后利用二项分布的期望和方差公式可求得结果.
【详解】(1)设,则,
因为,,,
所以,,
所以,与的拟合函数关系式为
当时,,
则估计年我国在线直播生活购物用户的规模为亿人.
(2)由题意知,所以,,
,
由,可得,
因为,解得,
所以,,.
19.(2024高三·全国·专题练习)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为(单位:百台,,2,,9),数据作了初步处理,得到如图所示的散点图.
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中,.
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考数据:.
【答案】(1)
(2),38天
【分析】(1)先在散点图中找到不高于300台的样本点数,然后再找到不高于200台的样本点数,然后求概率即可;
(2)先,然后利用求回归直线的方式求解该方程中的参数,然后利用不等式求解即可.
【详解】(1)由散点图知,不高于300台的样本点有5个,其中高于200台的样本点有4个,
则在2个样本点的生产量都不高于300台的条件下,2个样本点都高于200台的概率为
(2)
则由回归直线方程系数求解公式知,
,
,
故.
,
所以需要38天呼吸机日生产量可超过500台.
20.(2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份
1
2
3
4
5
销售量(万件)
4.9
5.8
6.8
8.3
10.2
该公司为了预测未来几个月的销售量,建立了关于的回归模型:.
(1)根据所给数据与回归模型,求关于的回归方程(的值精确到0.1);
(2)已知该公司的月利润(单位:万元)与,的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
【答案】(1)
(2)第9个月的月利润预报值最大.
【分析】(1)将非线性回归方程问题转化线性回归方程问题,根据最小二乘法求解即可.
(2)先求得的表达式,然后利用导数来求得最值问题.
【详解】(1)令,则,
,
,,
所以关于的回归方程为.
(2)由(1)知,
,
令(),
(),
令,得,单调递增,
令,得,单调递减,
令,得,
所以()在处取得极大值,也是最大值,
所以,
所以第9个月的月利润预报值最大.
学科网(北京)股份有限公司1
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$