内容正文:
8.2 一元线性回归模型及其应用
(第2课时:残差与决定系数的计算、非线性回归方程)
同步练习题
2025-2026学年第二学期高二数学人教A版选择性必修第三册
【例题精练】
【例1】从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型(其中e为自然对数的底数)拟合,设,其变换后得到一组数据:
x
20
23
25
27
30
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则当x=35时,蝗虫的产卵量y的估计值为( )
A. B. C.8 D.
【例2】某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
年收入(千元)
59
61
64
68
73
(1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数)
(2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由.
参考数据及公式:,.设,则,.
【例3】某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【例4】为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1-10分别对应年份2013-2022.
根据散点图,分别用模型①,②作为年研发投入关于年份代码的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75
2.25
82.5
4.5
120
28.35
表中.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入关于年份代码的经验回归方程模型?并说明理由;
(2)根据(1)中所选模型,求出关于的经验回归方程,并预测该公司2028年的高科技研发投入.
附:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【例5】我校数学建模小组为了解高中男生的体重y(单位:kg)与身高x(单位:cm)是否存在较好的线性关系,该小组搜集了7位男生的数据,得到的数据经过计算后得到的有效数据为:,,,根据所给数据计算得到y关于x的线性回归方程为.
(1)求;
(2)已知且当时,回归方程的拟合效果非常好;当时,回归方程的拟合效果良好.试问该线性回归方程的拟合效果是非常好还是良好?说明你的理由.
【A组基础达标】
一、单选题
1.为了研究物理成绩与数学成绩之间的关系,随机抽取100名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A.2.5 B.3.5 C.3.5 D.2.5
2.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
3.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
4.已知某企业对新品按事先拟定的价格进行试销,得到以下数据
单价/元
40
50
60
70
80
90
/件
45
39
38
35
30
23
由表中数据,求得经验回归方程为,下列说法错误的是( )
A.产品的销售量和单价呈负相关
B.该经验回归直线过点
C.样本点的残差为
D.当单价定为100元时,销量估计为21件
5.某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
6.某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
二、多选题
7.已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
8.某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
三、填空题
9.已知两个变量和之间具有较强的线性相关关系,且关于的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差观测值预测值),则______.(保留两位小数)
10.某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
四、解答题
11.下表是我国从2016年到2020年能源消费总量近似值y(单位:千万吨标准煤)的数据表格:
年份
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
能源消费总量近似值y(单位:千万吨标准煤)
442
456
472
488
498
以x为解释变量,y为预报变量,若以为回归方程,则相关指数,若以为回归方程,则相关指数.
(1)判断与哪一个更适宜作为能源消费总量近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程.
参考数据:,.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,.
12.当前“停车难”已成为城市通病,因停车问题引发的纠纷屡见不鲜,无论在北京、上海等超大型城市,还是其它城市,甚至人口只有几万、十几万的县城和乡镇,“停车难”都给群众生活和政府管理带来了深深的烦恼,由于“停车难”是事关百姓生活质量和切身利益的问题,也是建设和谐社会不容忽视的问题之一,某小区物业公司决定动手解决小区“停车难”问题,并统计了近六年小区私家车的数量,以编号1对应2015年,编号2对应2016年,编号3对应2017年,以此类推,得到相应数据如下:
年份编号
1
2
3
4
5
6
数量(辆)
41
96
116
190
218
275
(1)若该小区私家车的数量与年份编号的关系可用线性回归模型来拟合,试用相关指数分析其拟合效果(精确到);
(2)由于车辆增加,原有停车位已经不能满足有车业主的需求,因此物业公司欲在小区内对原有停车位进行改造,重新规划停车位.若要求在2021年小区停车位数量仍可满足需要,求至少需要规划多少个停车位.
参考数据:,,,.
附:回归方程中斜率和截距的最小二乘法估计公式分别为:,;
相关指数,残差.
【B组能力提升】
1.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
2.某市近6年的新能源汽车保有量数据如下表
年份代号x
1
2
3
4
5
6
保有量y(万辆)
1
1.8
2.7
4
5.9
9.2
(1)从这6年中任意选取2年,在已知至少有1年的新能源汽车保有量大于3万辆的前提下,求这2年的新能源汽车保有量全都大于3万辆的概率;
(2)用函数模型对变量x,y的关系进行拟合,根据表中数据求出y关于x的回归方程(参数d的估计值精确到0.01).
参考数据:,,,;
设,,
参考公式:回归直线的斜率和截距的最小二乘估计公式分别为:,
3
.水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
4.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
答案第1页,共2页
答案第1页,共2页
学科网(北京)股份有限公司
$
8.2 一元线性回归模型及其应用
(第2课时:残差与决定系数的计算、非线性回归方程)
同步练习题
2025-2026学年第二学期高二数学人教A版选择性必修第三册
【例题精练】
【例1】从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型(其中e为自然对数的底数)拟合,设,其变换后得到一组数据:
x
20
23
25
27
30
z
2
2.4
3
3
4.6
由上表可得经验回归方程,则当x=35时,蝗虫的产卵量y的估计值为( )
A. B. C.8 D.
【答案】A
【分析】根据线性回归方程的性质求出,由此可求.
【详解】由表格数据知:,,
因为数对满足,得,
∴,即,∴,∴x=35时,.
故当x=35时,蝗虫的产卵量y的估计值为.
故选:A.
【例2】某地政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的年收入的统计数据:
年份
2019
2020
2021
2022
2023
年份代码
1
2
3
4
5
年收入(千元)
59
61
64
68
73
(1)根据表中数据,现决定使用模型拟合与之间的关系,请求出此模型的回归方程;(结果保留一位小数)
(2)统计学中常通过计算残差的平方和来判断模型的拟合效果.在本题中,若残差平方和小于0.5,则认为拟合效果符合要求.请判断(1)中回归方程的拟合效果是否符合要求,并说明理由.
参考数据及公式:,.设,则,.
【答案】(1)
(2)拟合效果符合要求,理由见解析
【分析】(1)设,根据数据计算,根据最小二乘法公式计算即可;
(2)先利用(1)的方程计算预测值,再利用残差的定义计算残差平方和判定结果即可.
【详解】(1)根据农户近5年种植药材的收入情况的统计数据可得:
,,
设,则,所以,
则,.
所以,回归方程为.
(2)将值代入可得估计值分别为59,60.8,63.8,68,73.4,
则残差平方和为.
因为,所以回归方程拟合效果符合要求.
【例3】某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1)
(2).
【分析】(1)16年中有4年居民存款余额超过100万亿元,根据组合知识求解概率;
(2)两边取对数,再根据公式求出,,从而,故.
【详解】(1)由题意,16年中有4年居民存款余额超过100万亿元,
故所求概率为.
(2),
由题知,,
,
,
,故.
【例4】为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1-10分别对应年份2013-2022.
根据散点图,分别用模型①,②作为年研发投入关于年份代码的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
75
2.25
82.5
4.5
120
28.35
表中.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入关于年份代码的经验回归方程模型?并说明理由;
(2)根据(1)中所选模型,求出关于的经验回归方程,并预测该公司2028年的高科技研发投入.
附:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1)选择模型②,理由见解析
(2),预测该公司2028年的高科技研发投入亿元.
【分析】(1)根据残差图判断;
(2)利用最小二乘法求非线性回归方程即可求解.
【详解】(1)根据图2可知,模型①的残差波动性很大,说明拟合关系较差;模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.
(2)设,所以,
所以,,
所以关于的经验回归方程为,
令,则,
即预测该公司2028年的高科技研发投入亿元.
【例5】我校数学建模小组为了解高中男生的体重y(单位:kg)与身高x(单位:cm)是否存在较好的线性关系,该小组搜集了7位男生的数据,得到的数据经过计算后得到的有效数据为:,,,根据所给数据计算得到y关于x的线性回归方程为.
(1)求;
(2)已知且当时,回归方程的拟合效果非常好;当时,回归方程的拟合效果良好.试问该线性回归方程的拟合效果是非常好还是良好?说明你的理由.
【答案】(1);(2)良好,理由见解析.
【分析】(1)将样本中心点代入回归直线方程即可得出结果.
(2)根据相关系数关系式求出相关系数即可得出结果.
【详解】(1)∵将(172,62)代入回归方程得:
∴
(2),
∴
故该线性回归方程的拟合效果是良好.
【A组基础达标】
一、单选题
1.为了研究物理成绩与数学成绩之间的关系,随机抽取100名学生的成绩,用最小二乘法得到关于的线性回归方程为,则样本点的残差为( )
A.2.5 B.3.5 C.3.5 D.2.5
【答案】D
【分析】先求出对应的物理成绩的预测值,再根据残差的定义计算即可.
【详解】将代入得,
则样本点的残差为.
故选:D
2.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
【答案】B
【分析】根据线性回归和最小二乘法知识进行求解即可.
【详解】根据表中数据可求得:
,.
因为经验回归方程经过点,得.
解得,所以A正确;
所以经验回归方程为.
当时,,
所以残差为,所以B错误;
因为经验回归方程为,,所以正相关,所以C正确;
令,则,所以D正确.
故选:B.
3.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A.0.1 B.0.2 C.-0.2 D.-0.1
【答案】A
【分析】先求出新增数据后的样本中心点,从而得到修正后的回归直线,得到的估计值为即可求出残差.
【详解】因,则,则,
则新增数据后,,,
因新的回归直线过点,且修正后的回归直线的斜率为2.1,
则,则修正后的回归直线为:,
则的估计值为,则数据的残差为.
故选:A
4.已知某企业对新品按事先拟定的价格进行试销,得到以下数据
单价/元
40
50
60
70
80
90
/件
45
39
38
35
30
23
由表中数据,求得经验回归方程为,下列说法错误的是( )
A.产品的销售量和单价呈负相关
B.该经验回归直线过点
C.样本点的残差为
D.当单价定为100元时,销量估计为21件
【答案】C
【分析】由线性回归方程中的回归系数,即可判断选项A;由表中数据求得,,所以该经验回归直线必过样本中心点,即可判断选项B;由,解得,所以.当时,结合残差定义即可判断选项C;令时求出对应的即可判断选项D.
【详解】由线性回归方程中的回归系数,可知产品的销售量和单价呈负相关,故选项A正确;
由表中数据得,,所以该经验回归直线过点,故选项B正确;
由得,解得,所以.
当时,所以样本点的残差为,故选项C错误;
当时,所以当单价定为100元时,销量估计为21件,故选项D正确.
故选:C.
5.某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
【答案】D
【分析】根据给定条件,利用决定系数大小关系排除AB;再利用数表中数据求出斜率判断CD.
【详解】由用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,
得,则指数型回归模型最适宜拟合y与x关系,排除AB;
设y与x之间关系的函数为,两边取对数得,设,则,
因此,,
即,,C错误,D正确.
故选:D
6.某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【分析】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C
二、多选题
7.已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
【答案】AC
【分析】由回归方程过样本中心点即可求解判断A;由回归方程和残差定义即可逐项分析求解判断BCD.
【详解】依题意,,
将代入中,解得,故A正确;
可以估计每增加1个月份,月利润提高2.4万元,故B错误;
将代入中,得到,故C正确;
将代入中,得到,则所求残差为,故D错误.
故选:AC.
8.某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
【答案】BD
【分析】由题意结合所给图象的变化趋势,结合选项,逐一分析判断即可求解.
【详解】根据图象可知,函数图象随着自变量的变大,函数值增长速度越来越快,
结合选项,可判定为指数函数或的特征,
故选:BD.
三、填空题
9.已知两个变量和之间具有较强的线性相关关系,且关于的经验回归方程为,由它计算出成对样本数据对应的残差为0.12(残差观测值预测值),则______.(保留两位小数)
【答案】
【分析】先根据回归直线估计得出预测值,再残差计算求解计算求参.
【详解】因为y关于x的经验回归方程为,
所以预测值为,又因为残差=观测值-预测值,
所以,
所以.
故答案为:
10.某校数学建模兴趣小组收集了一组恒温动物体重(单位:克)与脉搏率(单位:心跳次数/分钟)的对应数据,根据生物学常识和散点图得出与近似满足(为参数).令,,计算得,,.由最小二乘法得经验回归方程为,则的值为___________;为判断拟合效果,通过经验回归方程求得预测值,若残差平方和,则决定系数___________.(参考公式:决定系数)
【答案】
【分析】根据回归直线方程必过样本中心点求出,即可求出,再根据决定系数公式求出.
【详解】因为,两边取对数可得,
又,,
依题意回归直线方程必过样本中心点,
所以,解得,所以,
又.
故答案为:;
四、解答题
11.下表是我国从2016年到2020年能源消费总量近似值y(单位:千万吨标准煤)的数据表格:
年份
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
能源消费总量近似值y(单位:千万吨标准煤)
442
456
472
488
498
以x为解释变量,y为预报变量,若以为回归方程,则相关指数,若以为回归方程,则相关指数.
(1)判断与哪一个更适宜作为能源消费总量近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程.
参考数据:,.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)更适宜作为y关于x的回归方程,答案见解析;
(2).
【分析】(1)利用相关指数的概念即得;
(2)利用回归直线方程公式即求.
【详解】(1)因为,
所以更适宜作为y关于x的回归方程.
(2),.
,,
所以以x为解释变量,y为预报变量的回归方程为.
12.当前“停车难”已成为城市通病,因停车问题引发的纠纷屡见不鲜,无论在北京、上海等超大型城市,还是其它城市,甚至人口只有几万、十几万的县城和乡镇,“停车难”都给群众生活和政府管理带来了深深的烦恼,由于“停车难”是事关百姓生活质量和切身利益的问题,也是建设和谐社会不容忽视的问题之一,某小区物业公司决定动手解决小区“停车难”问题,并统计了近六年小区私家车的数量,以编号1对应2015年,编号2对应2016年,编号3对应2017年,以此类推,得到相应数据如下:
年份编号
1
2
3
4
5
6
数量(辆)
41
96
116
190
218
275
(1)若该小区私家车的数量与年份编号的关系可用线性回归模型来拟合,试用相关指数分析其拟合效果(精确到);
(2)由于车辆增加,原有停车位已经不能满足有车业主的需求,因此物业公司欲在小区内对原有停车位进行改造,重新规划停车位.若要求在2021年小区停车位数量仍可满足需要,求至少需要规划多少个停车位.
参考数据:,,,.
附:回归方程中斜率和截距的最小二乘法估计公式分别为:,;
相关指数,残差.
【答案】(1)答案见解析;(2)317个.
【分析】(1)由已知数据求得与,则可求得线性回归方程,再求出残差平方和,代入相关指数公式求得,根据与1的接近程度可分析其拟合效果;
(2)根据(1)中的回归直线方程,取求得的值即可.
【详解】(1)由题意得,,
∴,
且,
所以关于的线性回归方程为;
又时,;时,;时,;
时,;时,;时,;
故,,
由相关指数近似为,接近1,说明拟合效果较好.
(2)在(1)中求得的线性回归方程中,取,可得.
故若要求在2021年小区停车位数量仍可满足需要,则至少需要规划317个停车位.
【B组能力提升】
1.为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据(,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立y与x的回归方程更合适;
(2);
(3)960万元.
【分析】(1)利用非线性转化为线性,再求相关系数即可得到判断;
(2)利用非线性转化为线性,再求线性回归方程系数即可得解;
(3)利用基本不等式求最大值即可.
【详解】(1)由题意知,,
因为,所以用模型建立y与x的回归方程更合适.
(2)令,回归方程为,因为,,
所以关于x的回归方程为,即.
(3)由题意知,
当且仅当,即时取等号,
则,所以.
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为960万元.
2.某市近6年的新能源汽车保有量数据如下表
年份代号x
1
2
3
4
5
6
保有量y(万辆)
1
1.8
2.7
4
5.9
9.2
(1)从这6年中任意选取2年,在已知至少有1年的新能源汽车保有量大于3万辆的前提下,求这2年的新能源汽车保有量全都大于3万辆的概率;
(2)用函数模型对变量x,y的关系进行拟合,根据表中数据求出y关于x的回归方程(参数d的估计值精确到0.01).
参考数据:,,,;
设,,
参考公式:回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1)
(2)
【分析】(1)先确定保有量大于3万辆的年份数量,用对立事件求至少1年大于3万辆的概率,再结合2年都大于3万辆的概率,通过条件概率公式计算结果;
(2)将非线性回归模型取对数转化为线性回归模型,利用给定数据计算斜率和截距,再还原得到原模型的参数.
【详解】(1)保有量大于3万辆的年份有第4,5,6年,共3年,
保有量不大于3万辆的年份有第1,2,3年,共3年,
设至少有1年保有量大于3万辆为事件,2年保有量全都大于3万辆为事件,
事件的对立事件为2年都不大于3万辆,总选法有,
两年都不大于3万辆的选法为,所以,
两年都大于3万辆的选法为,所以,
则.
(2)已知模型,两边取对数得,
令,则,即转化为线性回归方程,
其中,由题意得,
则,
,
因为,所以,
则.
3.水体富营养化导致藻类大量繁殖,以2017年中国太湖蓝藻爆发为例:5月初监测发现湖体中蓝藻细胞密度为每升50万个,随着气温升高至25-30℃且氮磷营养盐浓度超标(总磷浓度达),蓝藻进入增长期.5月10日细胞密度增至每升200万个,5月15日突破每升800万个,5月20日达到每升3200万个,形成面积超150平方公里的绿色水华带.此次爆发导致湖区溶解氧骤降至以下,大量鱼类死亡,自来水厂被迫停产、所以对水资源的保护刻不容缓,现对某区域的藻类面积y(单位:平方公里)与时间x(单位:年)的关系,进行监测,得到如下数据:
x/年
1
2
3
4
5
6
7
y/平方公里
6
11
21
34
66
101
196
根据以上数据,绘制成如图所示的散点图:
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合.
(1)根据散点图判断与(a,b,c,d均为常数)哪一个更适合作为藻类面积y(单位:平方公里)与时间x(单位:年)的关系的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,求出y关于x的回归方程;
(3)若不及时保护水质,当第八年检测时,请估计藻类面积为多少平方公里.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,
参考公式:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)更适宜
(2)
(3)347
【分析】(1)根据散点图的特征确定回归方程类型.
(2)利用非线性回归及最小二乘法求出回归方程.
(3)利用(2)的结论进行数据估计.
【详解】(1)由散点图得,藻类面积随时间的增加其增长速度越来越快,
所以更适宜作为藻类面积y与时间x的关系的回归方程类型.
(2)由,两边同时取常用对数得,
设,,,则,
由,,得,
则,因此,,
所以y关于x的回归方程为.
(3)当时,(平方公里)
所以若不加治理,第8次检测时,藻类面积约为347平方公里.
4.红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25
2.9
646
168
422688
50.4
70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【答案】(1)①;
(2)
【分析】(1)根据残差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【详解】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
答案第1页,共2页
答案第1页,共2页
学科网(北京)股份有限公司
$