内容正文:
专题4.3.1 一元线性回归模型
教学目标
1.理解相关关系类型及样本相关系数的意义,能结合散点图判断线性相关性强弱;
2.掌握用最小二乘法求解一元线性回归方程及拟合效果的三种判断方法;
3.会通过换元法将常见非线性回归模型转化为线性模型,完成完整建模。
教学重难点
重点:样本相关系数的应用、最小二乘法求解线性回归方程、拟合效果判断、非线性模型核心换元技巧;
难点:复杂数据下样本相关系数计算、残差图辅助拟合效果分析、非线性模型类型选择与转化建模。
知识点01 相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关
|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.
通常|r|大于0.75时,认为两个变量有很强的线性相关关系
【即学即练】
1.若甲、乙、丙、丁四组数据的相关系数分别为,,0.23,0.88,则在这四组数据中,线性相关性最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
【答案】A
【详解】根据题意,线性相关系数的绝对值越大,线性相关性越强.
因为,
故线性相关性最强的是甲组.
故选:A.
2.以下是不同成对样本数据的散点图,则下列说法正确的是( )
A.图(1)中成对样本数据呈负相关
B.图(1)中成对样本数据的线性相关程度比图(2)中强
C.图(1)中成对样本数据的相关系数大于图(2)中成对样本数据的相关系数
D.若从图(2)(多选)样本中抽取一部分,则这部分的相关系数不变
【答案】AB
【详解】对于A:图(1)中,随着增大,整体呈减小趋势,因此成对样本数据呈负相关,A正确;
对于B:图(1)中数据点更贴近直线,线性相关程度比图(2)(数据点分散)强,B正确;
对于C:图(1)的线性相关性强,负相关的相关系数接近−1;图(2)线性相关性弱,相关系数绝对值小(接近 0).
因此图(1)的相关系数(负数,绝对值大)小于图(2)的相关系数(接近 0),C错误;
对于D:从图(2)中抽取部分样本,数据分布会改变,相关系数会变化,D错误.
故选:AB.
知识点02 回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于1,表示回归的效果越好
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和越小,模型的拟合效果越好
【即学即练】
3.对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
【答案】B
【详解】由可知
,.
因为回归直线过样本中心点,即,
将其坐标代入方程可得,解得,
故选:B.
4.在线性回归分析中,已知,,则 .
【答案】5
【详解】
,
将代入计算得到, ,解得.
故答案为:5.
知识点03 非线性回归模型
1.建立非线性回归模型的基本步骤:
①确定研究对象,明确哪个是解释变量,哪个是预报变量;
②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
③由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、指数函数、对数函数模型等);
④通过换元,将非线性回归方程模型转化为线性回归方程模型;
⑤按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
⑥消去新元,得到非线性回归方程;
⑦得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
2.常见的非线性回归方程的转化:
曲线方程
变换公式
变换后的线性关系式
【即学即练】
5.若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B. C. D.
【答案】D
【详解】解析 对于A:因为在定义域内单调递增且,所以随着的增大而增大,不合题意,故A错误;
对于B:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故B错误;
对于C:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故C错误;
对于D:因为在定义域内单调递减且,所以随着的增大而减小,当解释变量,,故D正确;故选D.
6.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为.
x
2
3
4
5
y
若,则( )
A.6.8 B.7.8 C.8.8 D.9.8
【答案】D
【详解】由题意可得
x
2
3
4
5
2
3
5
6
由表中数据可得,,
故在上,故,故,则
当时,即,则,解得,
故选:D
题型01 相关关系的概念和判断
【例1】利用变量的5组实验数据,求得关于的经验回归方程为,若这5组数据对应的点都在该回归直线上,则相关系数为 .
【答案】
【详解】由经验回归方程知与负相关,
因为这5组数据对应的点都在回归直线上,所以相关系数为.
故答案为:
【例2】观察下列散点图,关于两个变量的相关关系推断正确的是( )
A.(1)为正相关,(2)不相关,(3)负相关
B.(1)为正相关,(2)负相关,(3)不相关
C.(1)为负相关,(2)不相关,(3)正相关
D.(1)为负相关,(2)正相关,(3)不相关
【答案】A
【详解】第一个图点的分布比较集中,且随的增加,而增加,是正相关.
第二个图点的分布比较分散,不相关.
第三个图点的分布比较集中,且随的增加,而减少,是负相关.
故选:A.
【变式1-1】(多选)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有线性相关关系的是( )
A. B.
C. D.
【答案】BC
【详解】由题意,
对于A:散点杂乱无章,无规律可言,看不出两个变量有什么相关性;故A错误;
对于B:呈正相关关系,分布在一条直线附近,具有线性相关关系;故B正确;
对于C:两个变量具有负相关关系,分布在一条直线附近,具有线性相关关系;故C正确;
对于D:两个变量具有相关性,但不是正相关,也不是负相关,故D错误.
故选:BC.
【变式1-2】对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【答案】B
【详解】由散点图知,相关系数对应的散点图呈负相关,且线性相关性比较强.
故选:B.
【变式1-3】试判断下列各个问题中两个变量之间是否具有相关关系:
(1)商品的销售价格与其供应量;
(2)汽车的行驶速度与耗油量;
(3)真空中自由降落的小球,位移(单位:m)与时间(单位:s);
(4)日降雨量(单位:cm)与空气中污染物浓度(单位:).
【答案】(1)具有相关关系
(2)具有相关关系
(3)具有函数关系
(4)具有相关关系
【分析】
【详解】(1)商品的销售价格与其供应量之间具有相关关系.一般来说,在品质相当的情况下,供应量越大,
价格就越低;供应量越小,价格就越高.某些品牌商品限量供应,就是保持较高价位的销售策略.
(2)汽车的行驶速度与耗油量之间具有相关关系.通常情况下,当速度很慢或速度很快时,耗油较多,
而在中等车速(不同的汽车范围不一定一样)时,速度稍高,耗油反而较少.
(3)根据自由落体运动方程,可知自由降落的小球,位移与时间之间是函数关系.
(4)日降雨量与空气中污染物浓度之间具有相关关系.通常情况下,降雨量越大,空气中污染物浓度就越低.
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:时,正相关;时,负相关.
题型02 相关系数的比较和计算
【例3】下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最小的是( )
A. B.
C. D.
【答案】B
【详解】由散点图可得,图1为正相关,则,且相关性较强,则,
图2为负相关,则,且相关性较强,则,
图3为正相关,则,
图4为负相关,但数据相关性较弱,所以,
所以相关系数最小的为.
故选:B
【例4】在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.
编号
1
2
3
4
5
6
7
年龄/岁
23
27
39
41
45
49
50
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
编号
8
9
10
11
12
13
14
年龄/岁
53
54
56
57
58
60
61
脂肪含量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
根据上表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
【答案】答案见解析
【详解】先画出散点图,观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
根据样本相关系数的定义,
.①
利用计算工具计算可得
,
,.
代入①式,得
.
由样本相关系数,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
【变式2-1】对两个变量x,y进行线性相关性检验,得线性相关系数,对两个变量u,v进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
【答案】D
【详解】由线性相关系数知x与y正相关,
由线性相关系数知u与v负相关,
又,所以变量u与变量v的线性相关性比变量x与变量y的线性相关性更强.
故选:D
【变式2-2】以下4幅散点图所对应的样本相关系数的大小关系为 .
【答案】
【详解】根据散点图可知,图①③成正相关,图②④成负相关,所以,
又图①②的散点图近似在一条直线上,所以图①②两变量的线性相关程度比较高,图③④的散点图比较分散,
故图③④两变量的线性相关程度比较低,即与比较大,与比较小,
所以.
故答案为:
【变式2-3】科技创新赋能高质量发展,某公司研发新产品投入x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示(其中m为后期整理数据时导致数据缺失),且由该5组数据用最小二乘法得到的回归直线方程为.
x
5
6
8
9
12
y
16
20
25
28
m
(1)求m的值.
(2)若将表中的点去掉,样本相关系数r是否改变?说明你的理由.
参考公式:相关系数.
【答案】(1)
(2)不变,理由见解析
【分析】
【详解】(1)由题意可知,,,
所以样本中心为,将点代入,可得,解得.
(2)由(1)可得,样本中心为,所以,.
由相关系公式知,,将点去掉后,样本相关系数r不变nn
变量之间的样本相关系数具有如下性质
(1),故变量之间的样本相关系数的取值范围为.
(2)越大,变量之间的线性相关程度越强;越接近,变量之间的线性相关程度越弱.
(3)当时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当时,称两个变量没有线性相关关系.
题型03 线性回归方程与样本中心
【例5】根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【答案】B
【详解】由题意:,.
因为一元线性回归直线经过点,
可得:.
故选:B
【例6】已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
【答案】A
【详解】因为经验回归方程为,,
所以.
原样本有10个数据点,,
则.
去除两个样本点后,样本有8个数据点,且,
所以新样本的
因为新的经验回归直线的斜率不变,则设新的经验回归方程为,
将代入方程得,
所以新的经验回归方程为.
故选:A.
【变式3-1】已知变量与线性相关,由样本点求得的线性回归方程为,若点在回归直线上,且,则 .
【答案】6
【详解】由题意,点在回归直线上,
代入可得,,解得.
又,且样本点的中心在回归直线上,
故代入得,最后得结果,则,解得.
故答案为:.
【变式3-2】某单位为了解日用电量(单位:千瓦时)与当天平均温度(单位:摄氏度)之间的关系,随机统计了4天的日用电量与当天的平均温度,绘制了如下表格,由表中数据可得线性回归方程,则实数 .
5
15
24
60
40
20
【答案】4
【详解】由表数据可得,
所以线性回归方程必过点,
所以,解得,
故答案为:.
【变式3-3】某学习小组用计算机软件对一组数据,进行回归分析,甲同学首先求出线性回归方程为,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到线性回归方程为,则实数 .
【答案】
【详解】修正前样本点的中心为,代入,可知.
假设甲输入的为,为,
则,,
得,,
修正后,,
则样本点的中心为,将其代入线性回归方程,
得.
故答案为:
,样本点的中心在线性回归方程上
题型04 求线性回归方程
【例7】根据《中国统计年鉴》计算整理某城市最近十年蔬菜需求量的统计数据,截取部分统计数据如下表:
年份
2009
2011
2013
2015
2017
需求量(万吨)
336
346
357
376
386
(1)画出散点图;
(2)根据(1)画出的散点图判断需求量与年份是否线性相关,若相关,求出线性回归方程,若不相关,说明理由;
(3)利用(2)中所求的线性回归方程预测该市2023年的蔬菜需求量.
附:参考公式,
【答案】(1)答案见解析
(2)相关,
(3)万吨.
【分析】
【详解】(1)画出散点图如图.
(2)由散点图可知,需求量与年份线性相关.
将所给表格中的数据进行处理如下表:
t(年份)
0
2
4
m(需求量)
0
19
29
由表可知,
.
所以,
,
所以
所以,
所以.
所以线性回归方程是,即.
(3)当时,,
即预测该地年蔬菜需求量是万吨.
【例8】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如表所示.
零件数
x/个
10
20
30
40
50
60
70
80
90
100
加工时间
y/min
62
68
75
81
89
95
102
108
115
122
(1)画出散点图;
(2)建立加工时间关于零件数的一元线性回归模型;
(3)关于加工零件的个数与加工时间,你能得出什么结论?
参考数据:,,
【答案】(1)散点图见解析
(2)
(3)每多加工个零件,需要增加分钟加工时间
【分析】
【详解】(1)画出散点图如下图所示:
(2),
,
,
所以加工时间关于零件数的一元线性回归模型为.
(3)根据经验回归直线方程可知:每多加工个零件,需要增加分钟加工时间.
【变式4-1】某奶茶连锁店研制了新品,在五个店按不同的价格进行试销售,通过一天的试销售得到的数据如下表:
单价(元/杯)
10
10.5
11
11.5
12
销售量(杯/店)
30
28
25
22
20
通过分析,发现该新品的销售量(杯/店)与单价(元/杯)具有线性相关关系.
(1)根据上表提供的数据,用最小二乘法求出关于的回归直线方程;
(2)已知此奶茶连锁店一共有500家奶茶店,若为了提高销量,此奶茶连锁店规定该新品的单价是9元/杯,根据(1)所得的回归直线方程,请估计此奶茶连锁店关于此新品一天的总销售量.
附:在回归直线方程中,.
【答案】(1)
(2)杯
【分析】
【详解】(1)解:由题意,可得,
且,
所以,,
所以关于的回归直线方程是.
(2)解:由(1)知当时,可得,
所以估计此奶茶连锁店关于此新品一天的总销售量是(杯).
【变式4-2】根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩的使用量(千克)之间的对应数据的散点图如图所示.
(1)从散点图可以看出,可用线性回归方程拟合与的关系,请计算样本相关系数并判断它们的相关程度;
(2)求关于的线性回归方程,并预测液体肥料每亩的使用量为12千克时西红柿亩产量的增加量.
附:,,.
【答案】(1)答案见解析
(2),9.9
【分析】
【详解】(1)由题知,,,
所以,,,
所以,
所以与成正线性相关,且相关程度很强.
(2)因为,,
所以关于的线性回归方程为,
当时,,
所以可预测液体肥料每亩的使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
【变式4-3】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:
零件数/个
10
20
30
40
50
60
70
80
90
100
加工时间/分
62
68
75
81
89
95
102
108
115
122
根据样本数据,画出加工时间与加工零件个数的散点图,如图所示,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,因此可以用一元线性回归模型刻画加工时间与加工零件个数之间的关系.(运算结果保留小数点后两位数字)
(1)请求出加工时间关于零件数的经验回归方程;
(2)该车间实行“按时计件”工资制度:若工人完成一个零件的平均时间低于标准时间,则可获得额外奖励.已知目前每个零件的标准加工时间定为1.2分钟,根据上述回归方程判断:
(ⅰ)对于120个零件的任务,预测加工时间是否低于现行标准加工时间?(标准加工时间为分钟)
(ⅱ)若工人的实际加工能力与回归模型基本一致,车间是否应考虑调整标准时间?若需调整应调整到多少比较合适?
附:参考数据:,,,.
对于一组数据,,,,其经验回归方程的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)
(2)(ⅰ)低于现行标准时间;(ⅱ)应考虑调低标准时间,
【分析】
【详解】(1)易知,,
所以,
可得,
所以加工时间关于零件个数的经验回归方程是,
(2)(ⅰ)当时,
所以120个零件任务的回归预测时间,因此低于现行标准时间.
(ⅱ)由于回归预测显示实际所需时间(约135.25分)比标准时间少9分钟,说明按照现行标准,工人很容易拿到奖励(实际效率更高).
如果车间希望控制奖励发放比例或更符合实际效率,应考虑调低标准时间,如调整到接近预测的分/个,使标准更贴近真实加工能力.nn
题型05 非线性回归方程
【例9】某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【答案】D
【详解】由图可知,随着温度的增加,发芽率的增长速度越来越慢,符合对数型函数的特征.
故选:D.
【例10】为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立与的回归方程更合适
(2)
(3)万元
【分析】
【详解】(1)由题意知,
,
因为,所以用模型建立与的回归方程更合适.
(2)令,回归方程为,
因为,
,
所以关于的回归方程为,即.
(3)由题意知
,当且仅当,即时取等号,
则,所以.当且仅当时等号成立,
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为万元.
【变式5-1】某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元
1
2
3
4
5
y/千人
5
6
8.1
9
14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
【答案】BC
【详解】由题可知,令,,,
,
所以,
,故B正确;
所以,
令,,
所以曲线C不经过点,故A错误;
当时,千人,
所以若投入广告费9万元,则每晚客流量为万人,
因为每晚最多能接纳10万人,所以会超过夜市接纳能力,故C正确;
由可知,当时,,
所以当广告费从5万元增加到6万元,客流量增加千人,故D错误.
故选:BC
【变式5-2】某学校开展研究性学习活动,一组同学获得了下面的一组试验数据:
x
1.99
3
4
5.1
8
y
0.99
1.58
2.01
2.35
3.00
现有如下5个模拟函数:①;②;③;④;⑤,请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 (填序号).
【答案】④
【详解】根据表中数据,画出图象如下:
通过图象可看出,能比较近似的反映这些数据的规律.
故答案为:④.
【变式5-3】有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
运营里程y/万千米
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
【答案】(1)乙同学的更适合作为y关于x的回归方程类型,理由见解析
(2)
(3)17.25
【分析】
【详解】(1)因为,所以乙同学的更适合作为y关于x的回归方程类型.
(2),
由得,即.
则,
,
所以.
(3)2030年对应的年份代码,代入(2)中的y关于x的回归方程,
得.故预测2030年中国高铁运营里程将达到17.25万千米.
题型06 残差及相关指数的应用
【例11】有一散点图如图,在5个数据中去掉后,下列说法正确的是( )
A.解释变量与响应变量的线性相关性变弱 B.数据的方差变大
C.决定系数变小 D.残差平方和变小
【答案】D
【详解】从散点图可分析出,若去掉点,则剩下的点更能集中在一条直线附近,
所以解释变量与响应变量的线性相关性变强,
数据的离散程度减小,所以方差变小,决定系数越接近1,会变大,
因为拟合效果越好,所以残差平方和变小.
故选:D
【例12】自2021年以来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧,某地区电动汽车保有量呈现快速增长趋势,下表给出了近5年该地区的电动汽车保有量(单位:万辆).
年份
2021
2022
2023
2024
2025
年份编号
1
2
3
4
5
电动汽车保有量
1.5
2.5
4.9
7.8
若用作为该数据的回归直线模型,并已求得,
(1)结合已知数据求出2023年该地区的电动汽车保有量,并预测2030年该地区的电动汽车保有量;
(2)若已知,求此模型下的决定系数(精确到0.01).
参考公式及数据:一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,决定系数.
【答案】(1)3.4万辆,14.52万辆.
(2)0.93
【分析】
【详解】(1)由题意可得,且,
所以,
所以2023年电动汽车保有量万辆.
2030年对应的年份编号为10,代入回归直线方程,可求得.
即在2030年时,电动汽车保有量可能为14.52万辆.
(2),
所以决定系数.
【变式6-1】已知相关变量和的散点图如图所示,若用与拟合时,决定系数分别为和,则比较和的大小结果为( )
A. B. C. D.不确定
【答案】C
【详解】由散点图知,用拟合的效果比用拟合的效果要好,
所以.
故选:C.
【变式6-2】一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为. ,分布如图所示,且,则下列说法错误的是( )
A.样本负相关 B.
C. D.处理后的决定系数变大
【答案】C
【详解】对于A,经验回归方程中斜率,则样本负相关,A正确;
对于B,原样本均值:,
由,得,B正确:
对于C,由图1的数据波动较大可得比更集中,则,C错误;
对于D,由图1的残差平方和较图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.
故选:C.
【变式6-3】现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【分析】
【详解】(1)因为,,,
则,解得;
8月份对应的残差值.
(2)因为,
所以,
所以,
所以线性回归模型拟合程度更好.
线性回归问题应先通过成对样本数据的散点图来分析两变量间的关系是否线性相关,然后再利用求经验回归方程的公式求解经验回归方程,并利用残差图或来分析函数模型的拟合效果,在此基础上,借助经验回归方程对实际问题进行分析.
一、单选题
1.5天内某校当天新增感冒人数y与每日温差x(单位:℃)的数据如下表:
x
5
7
8
9
11
y
9
m
15
17
20
由于保存不善,有1个数据模糊不清,用m代替,已知y关于x的经验回归方程为,则( )
A.13 B.14 C.15 D.12
【答案】B
【详解】由,,
所以,解得.
故选:B.
2.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;
对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
对C,图1正相关,图2负相关,所以C不正确;
对D,因为图2相关程度更强,所以D正确.
故选:C.
3.已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【详解】由回归直线方程为必过点,所以,
由于去掉两个样本点和后,
得到新的样本数据的平均数为:
因为新的回归直线的斜率为3,根据必过点,
可得回归直线方程为:,即,
当时,,
在新的经验回归方程下,样本的残差为,
故选:B.
4.通过随机抽样,收集了若干朵鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的回归方程为,根据以上信息,下列命题正确的是( )
A.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为5.8612cm
B.若从样本中抽取一部分,则这部分的相关系数一定是0.8642
C.花瓣长度和花萼长度负相关
D.花瓣长度和花萼长度存在一次函数关系
【答案】A
【详解】当时,,故A正确,
部分数据的相关系数未必和总体相同,故B错误;
从散点图可以看出花瓣长度和花萼长度正相关,故C错误;
花瓣长度和花萼长度之间不存在函数关系,为相关关系,只是用一次函数近似拟合它们的关系,
故D错误.
故选:A.
5.下列是某商品2025年前5个月的平均价格与月份的统计数据:
月份代码
1
2
3
4
5
平均价格(单位:元)
17
16
20
18
19
用方程拟合上述数据,当残差平方和最小时,( )
A.0.1 B.0.2 C.0.4 D.0.6
【答案】D
【详解】当时,,残差的平方为;
当时,,残差的平方为;
当时,,残差的平方为;
当时,,残差的平方为;
当时,,残差的平方为;
所以残差平方和
,
对于二次函数开口向上,故在对称轴时取到最小值,故D正确.
故选:D.
6.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
【答案】A
【详解】已知,把,代入可得:
.
得到.
因为,所以,那么,即.
因为对数函数在上单调递增,且,所以,即有最大值为.
变量的估计值有最大值为.
故选:A.
二、多选题
7.已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
【答案】AC
【详解】依题意,,
将代入中,解得,故A正确;
可以估计每增加1个月份,月利润提高2.4万元,故B错误;
将代入中,得到,故C正确;
将代入中,得到,则所求残差为,故D错误.
故选:AC.
8.某同学在一次试验中,得到两个变量,的成对样本数据:,,⋯,,经对该组数据研究发现,变量,间具有线性相关关系,用最小二乘法求得的经验回归方程为.该同学给出如下结论,其中正确的结论有()
A.变量与具有正线性相关关系
B.在实际问题中,解释变量每增加1个单位,响应变量一定相应增加个单位
C.经验回归直线过样本点的中心
D.散点图中的点中至少有一个点在经验回归直线上
【答案】AC
【详解】因为经验回归方程为,根据正线性相关关系的定义,
当时,随的增大而增大,所以变量与具有正线性相关关系,故选项A正确.
在实际问题中,解释变量每增加1个单位,响应变量的平均变化量为,
但不一定增加个单位,因为经验回归方程是根据样本数据拟合的,存在一定的误差,故选项B错误.
根据经验回归直线的性质,经验回归直线一定过样本点的中心,故选项C正确.
散点图中的点不一定都在经验回归直线上,
经验回归直线是根据样本数据拟合的,它不一定经过所有样本点,故选项D错误.
故选:AC
三、填空题
9.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为 .
【答案】
【详解】由题意可得时的预测值为,
所以,解得,即经验回归方程为,
又因为,,
所以,解得,
故答案为:
10.某软件科技公司近8年的年利润额y与投入的年研发经费x(单位:千万元)如表所示.
x
3
4
5
6
6
7
8
9
y
根据散点图可以认为x与y之间存在线性相关关系,且相关系数,用最小二乘法求线性回归方程(,用分数表示), .(参考数据:.)
【答案】
【详解】,
,
由条件可知,
得,所以,
故答案为:.
11.网购作为一种新的消费方式,因其具有快捷、商品种类齐全、性价比高等优势而深受广大消费者认可.某网购公司统计了近五年在本公司网购的人数,得到如下的相关数据(其中“”表示2015年,“”表示2016年,且x为整数,依次类推;y表示人数):
1
2
3
4
5
(万人)
20
50
100
150
180
根据表中的数据,可以求出,若预测该公司的网购人数能超过300万人,则的最小值为 .
【答案】8
【详解】由题设,,
所以,即,则,
令,可得,又x为整数,
所以的最小值为8.
故答案为:8
四、解答题
12.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,测得的数据如下:
零件数个
10
20
30
40
50
加工时间分钟
62
68
75
81
89
(1)如果与线性相关,求关于的经验回归方程;
(2)根据(1)所求的经验回归方程,预测此车间加工这种零件个所需的加工时间.
附:,
参考数据:.
【答案】(1)
(2)101.8分钟
【详解】(1)数据得,
,
,
,
,
,
,
所求的回归直线方程为.
(2)由(1)知,当时,分钟,
所以预计此车间加工这种零件个时,所需的加工时间为101.8分钟.
13.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
【答案】(1)吨.
(2)残差表见解析;,拟合效果较好.
【详解】(1)根据题中数据可知,,
将样本中心点的坐标代入经验回归方程得
,解得,
所以经验回归方程为.
当时,,
即当浇灌海水浓度为8‰时,该品种海水稻的亩产量为吨.
(2)(i)由经验回归方程可得
,;
,;
,;
,;
,.
所以残差表如下:
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(ii)由上数据可知,
,
所以决定系数,与1比较接近,
所以拟合效果较好.
14.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
【答案】(1);
(2)模型②.
【详解】(1)由,得,
则,,
所以模型②中关于的经验回归方程为.
(2)模型①,,当时,年利润增量,
模型②,,当时,,
因此年利润增量,而,
所以模型②的预报效果更好.
2 / 37
学科网(北京)股份有限公司
$
专题4.3.1 一元线性回归模型
教学目标
1.理解相关关系类型及样本相关系数的意义,能结合散点图判断线性相关性强弱;
2.掌握用最小二乘法求解一元线性回归方程及拟合效果的三种判断方法;
3.会通过换元法将常见非线性回归模型转化为线性模型,完成完整建模。
教学重难点
重点:样本相关系数的应用、最小二乘法求解线性回归方程、拟合效果判断、非线性模型核心换元技巧;
难点:复杂数据下样本相关系数计算、残差图辅助拟合效果分析、非线性模型类型选择与转化建模。
知识点01 相关关系
1.变量的相关关系
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量_______;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量_______
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条_______附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量_______
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
_______
当r>0时,表明两个变量_______;当r<0时,表明两个变量_______
|r|越接近于1,表明两个变量的线性相关性越_______;|r|越接近于0,表明两个变量的线性相关性越_______
通常|r|大于_______时,认为两个变量有很强的线性相关关系
【即学即练】
1.若甲、乙、丙、丁四组数据的相关系数分别为,,0.23,0.88,则在这四组数据中,线性相关性最强的是( )
A.甲组 B.乙组 C.丙组 D.丁组
2.以下是不同成对样本数据的散点图,则下列说法正确的是( )
A.图(1)中成对样本数据呈负相关
B.图(1)中成对样本数据的线性相关程度比图(2)中强
C.图(1)中成对样本数据的相关系数大于图(2)中成对样本数据的相关系数
D.若从图(2)(多选)样本中抽取一部分,则这部分的相关系数不变
知识点02 回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的_______最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中______________,_______称为样本点的中心.
②线性回归模型,其中称为随机_______,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
方法
决定系数法
残差图
残差平方和
公式
称为相应于点的残差,
刻画效果
越接近于_______,表示回归的效果越好
残差点比较_______地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越_______,说明模型拟合精确度越高.
残差平方和越_______,模型的拟合效果越好
【即学即练】
3.对具有线性相关关系的变量x,y有一组观测数据,其回归直线方程是,且,则实数的值是( )
A. B. C. D.1
4.在线性回归分析中,已知,,则 .
知识点03 非线性回归模型
1.建立非线性回归模型的基本步骤:
①确定研究对象,明确哪个是解释变量,哪个是预报变量;
②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
③由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、指数函数、对数函数模型等);
④通过_______,将非线性回归方程模型转化为_______回归方程模型;
⑤按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
⑥消去_______,得到非线性回归方程;
⑦得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
2.常见的非线性回归方程的转化:
曲线方程
变换公式
变换后的线性关系式
_______
_______
【即学即练】
5.若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(为自然对数的底数)( )
A. B. C. D.
6.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为.
x
2
3
4
5
y
若,则( )
A.6.8 B.7.8 C.8.8 D.9.8
题型01 相关关系的概念和判断
【例1】利用变量的5组实验数据,求得关于的经验回归方程为,若这5组数据对应的点都在该回归直线上,则相关系数为 .
【例2】观察下列散点图,关于两个变量的相关关系推断正确的是( )
A.(1)为正相关,(2)不相关,(3)负相关
B.(1)为正相关,(2)负相关,(3)不相关
C.(1)为负相关,(2)不相关,(3)正相关
D.(1)为负相关,(2)正相关,(3)不相关
【变式1-1】(多选)下图是两个分类变量x,y取值绘制成的散点图,则图中变量x,y具有线性相关关系的是( )
A. B.
C. D.
【变式1-2】对四组数据进行统计,获得如图散点图,其中线性相关性比较强且负相关的是( )
A. B. C. D.
【变式1-3】试判断下列各个问题中两个变量之间是否具有相关关系:
(1)商品的销售价格与其供应量;
(2)汽车的行驶速度与耗油量;
(3)真空中自由降落的小球,位移(单位:m)与时间(单位:s);
(4)日降雨量(单位:cm)与空气中污染物浓度(单位:).
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:时,正相关;时,负相关.
题型02 相关系数的比较和计算
【例3】下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最小的是( )
A. B.
C. D.
【例4】在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.
编号
1
2
3
4
5
6
7
年龄/岁
23
27
39
41
45
49
50
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
编号
8
9
10
11
12
13
14
年龄/岁
53
54
56
57
58
60
61
脂肪含量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
根据上表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
【变式2-1】对两个变量x,y进行线性相关性检验,得线性相关系数,对两个变量u,v进行线性相关性检验,得线性相关系数,则下列判断正确的是( )
A.变量x与变量y正相关,变量u与变量v负相关,变量x与变量y的线性相关性更强
B.变量x与变量y负相关,变量u与变量v正相关,变量x与变量y的线性相关性更强
C.变量x与变量y负相关,变量u与变量v正相关,变量u与变量v的线性相关性更强
D.变量x与变量y正相关,变量u与变量v负相关,变量u与变量v的线性相关性更强
【变式2-2】以下4幅散点图所对应的样本相关系数的大小关系为 .
【变式2-3】科技创新赋能高质量发展,某公司研发新产品投入x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示(其中m为后期整理数据时导致数据缺失),且由该5组数据用最小二乘法得到的回归直线方程为.
x
5
6
8
9
12
y
16
20
25
28
m
(1)求m的值.
(2)若将表中的点去掉,样本相关系数r是否改变?说明你的理由.
参考公式:相关系数.
变量之间的样本相关系数具有如下性质
(1),故变量之间的样本相关系数的取值范围为.
(2)越大,变量之间的线性相关程度越强;越接近,变量之间的线性相关程度越弱.
(3)当时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当时,称两个变量没有线性相关关系.
题型03 线性回归方程与样本中心
【例5】根据表中数据,得到关于的一元线性回归方程为,且,则( )
1
2
3
4
5
6
7
y
A.1 B.2 C.4 D.2.4
【例6】已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
【变式3-1】已知变量与线性相关,由样本点求得的线性回归方程为,若点在回归直线上,且,则 .
【变式3-2】某单位为了解日用电量(单位:千瓦时)与当天平均温度(单位:摄氏度)之间的关系,随机统计了4天的日用电量与当天的平均温度,绘制了如下表格,由表中数据可得线性回归方程,则实数 .
5
15
24
60
40
20
【变式3-3】某学习小组用计算机软件对一组数据,进行回归分析,甲同学首先求出线性回归方程为,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到线性回归方程为,则实数 .
,样本点的中心在线性回归方程上
题型04 求线性回归方程
【例7】根据《中国统计年鉴》计算整理某城市最近十年蔬菜需求量的统计数据,截取部分统计数据如下表:
年份
2009
2011
2013
2015
2017
需求量(万吨)
336
346
357
376
386
(1)画出散点图;
(2)根据(1)画出的散点图判断需求量与年份是否线性相关,若相关,求出线性回归方程,若不相关,说明理由;
(3)利用(2)中所求的线性回归方程预测该市2023年的蔬菜需求量.
附:参考公式,
【例8】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如表所示.
零件数
x/个
10
20
30
40
50
60
70
80
90
100
加工时间
y/min
62
68
75
81
89
95
102
108
115
122
(1)画出散点图;
(2)建立加工时间关于零件数的一元线性回归模型;
(3)关于加工零件的个数与加工时间,你能得出什么结论?
参考数据:,,
【变式4-1】某奶茶连锁店研制了新品,在五个店按不同的价格进行试销售,通过一天的试销售得到的数据如下表:
单价(元/杯)
10
10.5
11
11.5
12
销售量(杯/店)
30
28
25
22
20
通过分析,发现该新品的销售量(杯/店)与单价(元/杯)具有线性相关关系.
(1)根据上表提供的数据,用最小二乘法求出关于的回归直线方程;
(2)已知此奶茶连锁店一共有500家奶茶店,若为了提高销量,此奶茶连锁店规定该新品的单价是9元/杯,根据(1)所得的回归直线方程,请估计此奶茶连锁店关于此新品一天的总销售量.
附:在回归直线方程中,.
【变式4-2】根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩的使用量(千克)之间的对应数据的散点图如图所示.
(1)从散点图可以看出,可用线性回归方程拟合与的关系,请计算样本相关系数并判断它们的相关程度;
(2)求关于的线性回归方程,并预测液体肥料每亩的使用量为12千克时西红柿亩产量的增加量.
附:,,.
【变式4-3】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:
零件数/个
10
20
30
40
50
60
70
80
90
100
加工时间/分
62
68
75
81
89
95
102
108
115
122
根据样本数据,画出加工时间与加工零件个数的散点图,如图所示,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,因此可以用一元线性回归模型刻画加工时间与加工零件个数之间的关系.(运算结果保留小数点后两位数字)
(1)请求出加工时间关于零件数的经验回归方程;
(2)该车间实行“按时计件”工资制度:若工人完成一个零件的平均时间低于标准时间,则可获得额外奖励.已知目前每个零件的标准加工时间定为1.2分钟,根据上述回归方程判断:
(ⅰ)对于120个零件的任务,预测加工时间是否低于现行标准加工时间?(标准加工时间为分钟)
(ⅱ)若工人的实际加工能力与回归模型基本一致,车间是否应考虑调整标准时间?若需调整应调整到多少比较合适?
附:参考数据:,,,.
对于一组数据,,,,其经验回归方程的斜率和截距的最小二乘估计分别为:
,.
题型05 非线性回归方程
【例9】某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【例10】为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15
108.40
3.04
0.16
14.00
-2.10
11.67
0.21
21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【变式5-1】某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元
1
2
3
4
5
y/千人
5
6
8.1
9
14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
【变式5-2】某学校开展研究性学习活动,一组同学获得了下面的一组试验数据:
x
1.99
3
4
5.1
8
y
0.99
1.58
2.01
2.35
3.00
现有如下5个模拟函数:①;②;③;④;⑤,请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 (填序号).
【变式5-3】有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
运营里程y/万千米
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
题型06 残差及相关指数的应用
【例11】有一散点图如图,在5个数据中去掉后,下列说法正确的是( )
A.解释变量与响应变量的线性相关性变弱 B.数据的方差变大
C.决定系数变小 D.残差平方和变小
【例12】自2021年以来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧,某地区电动汽车保有量呈现快速增长趋势,下表给出了近5年该地区的电动汽车保有量(单位:万辆).
年份
2021
2022
2023
2024
2025
年份编号
1
2
3
4
5
电动汽车保有量
1.5
2.5
4.9
7.8
若用作为该数据的回归直线模型,并已求得,
(1)结合已知数据求出2023年该地区的电动汽车保有量,并预测2030年该地区的电动汽车保有量;
(2)若已知,求此模型下的决定系数(精确到0.01).
参考公式及数据:一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,决定系数.
【变式6-1】已知相关变量和的散点图如图所示,若用与拟合时,决定系数分别为和,则比较和的大小结果为( )
A. B. C. D.不确定
【变式6-2】一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为. ,分布如图所示,且,则下列说法错误的是( )
A.样本负相关 B.
C. D.处理后的决定系数变大
【变式6-3】现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
月份
1
2
3
4
5
6
7
8
物流成本
83
83.5
80
86.5
89
84.5
79
86.5
利润
114
116
106
122
132
114
132
残差
0.2
0.6
1.8
-3
-1
-4.6
根据最小二乘法公式求得经验回归方程为.
(1)求的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
线性回归问题应先通过成对样本数据的散点图来分析两变量间的关系是否线性相关,然后再利用求经验回归方程的公式求解经验回归方程,并利用残差图或来分析函数模型的拟合效果,在此基础上,借助经验回归方程对实际问题进行分析.
一、单选题
1.5天内某校当天新增感冒人数y与每日温差x(单位:℃)的数据如下表:
x
5
7
8
9
11
y
9
m
15
17
20
由于保存不善,有1个数据模糊不清,用m代替,已知y关于x的经验回归方程为,则( )
A.13 B.14 C.15 D.12
2.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
3.已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,得到新的回归直线的斜率为3.则在新的经验回归方程下,样本的残差为( )
A. B. C.0.1 D.0.2
4.通过随机抽样,收集了若干朵鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的回归方程为,根据以上信息,下列命题正确的是( )
A.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为5.8612cm
B.若从样本中抽取一部分,则这部分的相关系数一定是0.8642
C.花瓣长度和花萼长度负相关
D.花瓣长度和花萼长度存在一次函数关系
5.下列是某商品2025年前5个月的平均价格与月份的统计数据:
月份代码
1
2
3
4
5
平均价格(单位:元)
17
16
20
18
19
用方程拟合上述数据,当残差平方和最小时,( )
A.0.1 B.0.2 C.0.4 D.0.6
6.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
二、多选题
7.已知某AI软件公司为迎合市场的需求开发了一款新型智能AI写作软件,现将该软件上市后的月份以及每个月获得的利润(单位:万元)之间的关系统计如下表所示,并根据表中数据,得到经验回归方程,则( )
月份
1
2
3
4
5
利润
5
8
10
12
15
A. B.可以估计每增加1个月份,月利润提高2.8万元
C.可以估计10月份的利润为26.8万元 D.5月份利润的残差为0.4万元
8.某同学在一次试验中,得到两个变量,的成对样本数据:,,⋯,,经对该组数据研究发现,变量,间具有线性相关关系,用最小二乘法求得的经验回归方程为.该同学给出如下结论,其中正确的结论有()
A.变量与具有正线性相关关系
B.在实际问题中,解释变量每增加1个单位,响应变量一定相应增加个单位
C.经验回归直线过样本点的中心
D.散点图中的点中至少有一个点在经验回归直线上
三、填空题
9.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量(吨)的相关性,在生产过程中收集组对应数据,如下表所示.(残差观测值预测值)
3
4
5
6
2.5
4
4.5
根据表中数据,得出关于的经验回归方程为,据此计算出在样本处的残差为,则表中的值为 .
10.某软件科技公司近8年的年利润额y与投入的年研发经费x(单位:千万元)如表所示.
x
3
4
5
6
6
7
8
9
y
根据散点图可以认为x与y之间存在线性相关关系,且相关系数,用最小二乘法求线性回归方程(,用分数表示), .(参考数据:.)
11.网购作为一种新的消费方式,因其具有快捷、商品种类齐全、性价比高等优势而深受广大消费者认可.某网购公司统计了近五年在本公司网购的人数,得到如下的相关数据(其中“”表示2015年,“”表示2016年,且x为整数,依次类推;y表示人数):
1
2
3
4
5
(万人)
20
50
100
150
180
根据表中的数据,可以求出,若预测该公司的网购人数能超过300万人,则的最小值为 .
四、解答题
12.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,测得的数据如下:
零件数个
10
20
30
40
50
加工时间分钟
62
68
75
81
89
(1)如果与线性相关,求关于的经验回归方程;
(2)根据(1)所求的经验回归方程,预测此车间加工这种零件个所需的加工时间.
附:,
参考数据:.
13.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为.
海水浓度(‰)
3
4
5
6
7
亩产量 (吨)
0.62
0.58
0.49
0.4
0.31
残差
(1)请你估计:当浇灌海水浓度为8‰时,该品种海水稻的亩产量;
(2)(i)完成上述残差表;
(ii)在统计学中,常用决定系数来刻画回归效果,越大,模型拟合效果越好,并用它来说明响应变量与解释变量的相关性.你能否利用以上表格中的数据,计算决定系数,并判断模型的拟合效果.(计算中数据精确到0.01)
(附:残差,决定系数)
14.为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
2 / 37
学科网(北京)股份有限公司
$