内容正文:
专题9.2 线性回归方程
教学目标
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义;
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,针对实际问题,会用一元线性回归模型进行预测;
3.通过学习线性回归方程及其含义,培养学生的数学抽象、数学运算及数据分析素养。
教学重难点
1.重点
用线性函数近似地刻画两个具有相关关系的变量之间的关系;线性回归方程.
2.难点
最小二乘法的思维过程,非线性回归方程
知识点01 线性回归模型
1.线性回归模型
把式子称为y关于x的线性回归模型.其中,y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;ε是y与a+bx之间的随机误差.
2.随机误差
在线性回归模型中,a和b为模型的未知参数,ε是y与a+bx之间的误差,通常ε为随机变量,称为随机误差.它的均值E(ε)=0,方差D(ε)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差ε的方差σ2越小,用a+bx预报真实值y的精度越高.
【即学即练】
1.下列说法中正确的个数是( )
⑴ 回归方程只适合用我们所研究的样本的总体;
⑵线性回归模型中,因变量y除了受自变量x的影响外,可能还受到其它因素的影响,这些因素会导致随机误差e的产生;
⑶设有一个回归方程 ,变量x增加一个单位时,y平均增加5个单位;
⑷用相关指数R2来刻画回归的效果时,R2取值越大,则残差平方和越小,模型拟合的效果就越好.
A.1 B.2 C.3 D.4
【答案】C
【分析】根据回归方程的意义,进行分析判断可判定⑴正确;根据线性回归的定义,可判断⑵正确;由线性回归方程中的斜率为负,可得y应该随x增大而减少,可判定⑶正确;根据相关指数的性质,可判定⑷错误.
【解析】对于⑴中,回归方程只适用于我们所研究的样本的总体,不适用于一切样本和总体,
所以⑴正确;
对于⑵中,根据线性回归方程得出的y的值是一个预报值,不是由x唯一确定,还受到其它因素的影响,这些因素会导致随机误差的产生,所以⑵正确;
对于⑶中,变量x增加一个单位时,y平均减少5个单位,所以⑶错误;
对于⑷中,由相关指数的性质可得,R2取值越大,则残差平方和越小,模型拟合的效果就越好,所以⑷正确;
故选:C.
2.下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
【答案】B
【分析】根据线性回归直线的性质可判断选项ABC;根据相关系数的性质可判断D,进而可得正确选项.
【解析】对于选项A:样本数据点的中心一定在线性回归直线上,故A错误;
对于选项B:残差平方和越小的模型,拟合的效果越好,故B正确;
对于选项C:线性回归直线在散点图中可能不经过任一样本数据点,故C错误;
对于选项D:如果两个变量的相关性越强,则相关系数的绝对值就越接近于1,故D错误;
故选:B.
知识点02 线性回归模型参数的最小二乘估计
1.线性回归方程与最小二乘法
设满足线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=a+bxi+εi(i=1,2,…,n),得|yi-(a+bxi)|= |εi|,显然|εi|越小,表示样本数据点离直线y=a+bx的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=a+bx的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为y关于x的线性回归方程,其图形称为回归直线.其中称为回归截距,称为回归系数,称为回归值.
这种求线性回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
线性回归直线一定过点(,).
2.求线性回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其线性回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据线性回归直线过样本点的中心计算;
(4)写出线性回归方程.
求线性回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的线性回归方程才有意义.
3.残差分析
对于响应变量y,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解线性回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据线性回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【即学即练】
1.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
【答案】B
【分析】根据线性回归和最小二乘法知识进行求解即可.
【解析】根据表中数据可求得:
,.
因为经验回归方程经过点,得.
解得,所以A正确;
所以经验回归方程为.
当时,,
所以残差为,所以B错误;
因为经验回归方程为,,所以正相关,所以C正确;
令,则,所以D正确.
故选:B.
2.若变量和的4对观测数据为,两个变量满足一元线性回归模型(随机误差),请写出参数的最小二乘估计值为
【答案】5.1
【分析】根据最小二乘法的原理,通过求随机误差平方和在为何值时取得最小值,即可得参数的最小二乘估计值.
【解析】依题意,两个变量满足一元线性回归模型,随机误差,
则随机误差平方和
,
易知,随机误差平方和是一个一元二次函数,
当时,随机误差平方和取得最小值,
因此参数的最小二乘估计值为5.1.
故答案为:5.1.
3.现收集了一只红铃虫的产卵数和温度的7组观测数据,如下表所示.
21
23
25
27
29
32
35
个
7
11
21
24
66
115
325
试建立与之间的回归模型.
【答案】
【分析】先根据数据绘制相应的散点图,观察到数据呈非线性关系但呈指数分布,则取对数,此时根据、绘制相应散点图,可发现、呈线性关系,从而建立线性回归模型,其次利用最小二乘法估计系数、,最后得到非线性回归模型.
【解析】根据表格中的数据建立相应的直角坐标系,画出散点图,如图所示.
根据观察可以发现,数据呈指数分布.为了作出这组数据的线性拟合模型,
将产卵数取对数,得,可得到下表:
21
23
25
27
29
32
35
1.946
2.398
3.045
3.178
4.190
4.745
5.784
对上表中的和绘制相应的散点图,如图所示.
从图可以看出,各数据点之间呈线性关系,于是进行线性回归分析,
求得与之间的线性拟合方程为.,
同理.
利用最小二乘法估计
故.最终得到回归模型.
题型01 解释回归直线方程的意义
【典例1】(多选)关于变量与的线性回归分析,下列说法正确的是( )
A.若相关系数,则说明变量与的线性相关程度较强
B.回归直线必过点
C.若散点图中数据点从左上角到右下角分布,则,负相关
D.若回归方程为,则变量每增加1个单位时,变量一定增加2个单位
【答案】ABC
【分析】对于A,由相关系数的绝对值越接近1,相关程度越强即可判断;对于B,由回归直线必定过样本中心点即可判断;对于C,由整体呈下降趋势即可判断;对于D,这是预测方程,变量每增加1个单位时,变量可能增加2个单位.
【解析】对于A,若相关系数,即相关系数的绝对值较为接近1,则说明变量与的线性相关程度较强,故A正确;
对于B,在线性回归方程中,回归直线必定过样本中心点,故B正确;
对于C,若散点图中数据点从左上角到右下角分布,整体呈下降趋势,则,负相关,故C正确;
对于D,若回归方程为,则变量每增加1个单位时,变量可能增加2个单位,故D错误.
故选:ABC.
【变式1】下列有关一元线性回归分析的命题正确的是( )
A.在儿子身高关于父亲身高的经验回归方程中,若父亲身高每增加,其儿子身高平均增加
B.经验回归直线是经过散点图中样本数据点最多的那条直线
C.若两个变量的线性相关程度越强,则样本相关系数就越接近于1
D.若甲、乙两个模型的决定系数分别为0.87和0.78,则模型乙的拟合效果更好
【答案】A
【分析】根据回归方程的意义,逐项分析理解即可.
【解析】对于A,0.839的含义就是每增加一个单位,估计值 就平均增加0.839个单位,故A正确;
对于B,确定回归直线的根据是误差最小,并不是经过的样本点最多,故B错误;
对于C,相关有正相关和负相关,共同点是相关性越强,相关系数的绝对值越接近于1,故C错误;
对于D, 是描述拟合效果的, 越大拟合效果越好,应该是甲的拟合效果更好,故D错误.
故选:A.
【变式2】已知两个变量和之间有线性相关关系,经调查得到的样本数据如下表所示,根据表格中的数据求得回归直线方程,则( )
1
2
4
6
7
4
3
2
0
-2
A., B.,
C., D.,
【答案】D
【分析】根据回归方程系数所表示的含义和表格中的数据进行判断即可.
【解析】由样本数据得随着的增大呈现减小的趋势,
所以和之间存在负相关的关系,所以,易得.
故选:D.
【变式3】(多选)研究表明某地的山高(km)与该山的年平均气温(℃)具有相关关系,根据所采集的数据得到线性回归方程,则下列说法错误的是( )
A.年平均气温为5℃时该山高估计为5km
B.该山高为8km处的年平均气温估计为10℃
C.该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关
D.该地的山高与该山的年平均气温成负相关关系
【答案】B
【分析】根据回归直线方程逐个验证选项可得答案.
【解析】对于A,因为时,,即山高估计为5km,A正确;
对于B,令,解得,即山高为8km处的年平均气温估计为℃,B错误;
对于C,由线性回归方程的系数的含义可知C正确;
对于D,因为,所以该地的山高与该山的年平均气温成负相关关系.
故选:B.
题型02 利用散点图画求近似回归直线
【典例1】某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高(单位:
167
173
175
177
178
180
181
体重(单位:
90
54
59
64
67
72
76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
【答案】A
【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.
【解析】身高的平均数为,
因为离群点的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉后经验回归直线的截距变小而斜率变大,故
去掉后相关性更强,拟合效果也更好,且还是正相关,
,
故选:A.
【变式1】若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【答案】C
【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.
【解析】由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.
故选:C.
【变式2】变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【答案】B
【分析】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【解析】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:.
故选:B.
【变式3】(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
A. B.
C. D.
【答案】AC
【分析】根据线性回归模型的特点进行求解即可.
【解析】四个选项中只有选项AC中的点分布在一条直线附近,适合线性回归模型,
故选:AC
题型03 根据回归方程进行数据估计
【典例1】(多选)相关变量的样本数据如下表:
x
1
2
3
4
y
2
3
a
5
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.当每增加1时,约增加1.5 B.当每增加13时,一定增加8
C. 与呈正相关 D.
【答案】ACD
【分析】根据回归方程的意义可判断AB的正误,根据回归系数的正负可判断C的正误,根据回归方程过样本中心可求,从而可判断D的正误.
【解析】对于A,因为回归直线方程为,故当每增加1时,增加约为 ,
故A正确;
对于B,因为回归直线方程为,故当每增加13时,增加约为,
故B错误;
对于C,因为,故与呈正相关,故C正确;
对于D,,故,故,故,
故D正确;
故选:ACD.
【变式1】某产品在去年6月至10月的销量(单位:万件)如下表所示:
月份
6
7
8
9
10
销量
1.1
1.3
1.9
2.2
2.5
若与线性相关,且线性回归方程为,则( )
A.样本的相关系数为负数
B.
C.
D.当时,销量为3.28万件
【答案】B
【分析】根据表格数据的关系,可判断两变量呈正相关,从而判断A项;根据回归直线经过数据样本中心点,可判断BC项;将代入回归直线方程,可求得销量预测值,可判断D项.
【解析】对于A,根据表格数据知,销量随月份的增大而增大,所以两个变量呈正相关,相关系数为正数,故A错误;
对于B,C,根据题表数据,可得,,
所以样本中心为,将样本中心代入线性回归方程得,解得,
所以线性回归方程为,故B正确,C错误;
对于D,当时,得,所以预测销量约为3.28万件,所得数据为销量的预测值,并非实际销量,故D错误.
故选:B.
【变式2】(多选)变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是( ).
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间成负相关关系
B.
C.可以预测当时,y约为2.6
D.由表格数据知,该线性回归直线必过点
【答案】ACD
【分析】由线性回归方程,即可判断A;求出,代入回归方程解出,列方程解出,即可判断B;将时,代入线性回归方程可判断C;线性回归直线必过,可判断D.
【解析】由得,所以x,y成负相关关系,故A中说法正确;
,故,又因为,所以,解得,故B中说法错误;
当时,y的预测值为2.6,故C中说法正确;
因为故线性回归直线恒过点,而,,该线性回归直线必过点,故D中说法正确.
故选:ACD.
题型04 样本中心点及其应用
【典例1】某饮料店某5天的日销售收入(单位:百元)与当天平均气温(单位:℃)之间的数据如下表:
0
1
2
5
4
2
2
1
若与之间是线性相关关系,且关于的经验回归方程是,则实数的值是( )
A.3 B.2.8 C.2.6 D.2.4
【答案】B
【分析】根据表格中的数据,求得样本点的中心是,将其代入回归方程,即可求解.
【解析】由统计表格中的数据,可得,,
所以统计数据的样本点的中心为,
因为关于的经验回归方程是,
代入可得,解得.
故选:B.
【变式1】某专营店统计了新产品A上市后第天到该专营店购物的人数y(单位:人).
x
1
2
3
4
5
y
15
20
35
80
150
根据表中数据,可知y与x的经验回归方程为,则( )
A. B.22 C. D.39
【答案】C
【分析】根据经验回归方程过定点,带入求参数.
【解析】根据题意可知,,
把带入,得,解得.
故选:C.
【变式2】稀土被誉为工业的维生素,具有无法取代的优异磁、光、电性能,对改善产品性能,增加产品品种,提高生产效率起到了巨大的作用.右表是2024年前5个月某国稀土出口均价(单位:万元吨)与月份的统计数据.若与的线性回归方程为,则的值为( )
1
2
3
4
5
1.7
2.4
2.0
1.6
A.1.4 B.1.5 C.1.6 D.1.7
【答案】B
【分析】根据线性回归方程为过样本中心点求解即可.
【解析】由题意可知,,
因为线性回归方程为过样本中心点,
所以,
所以,解得.
故选:.
【变式3】近年来,我国电动汽车产业发展迅猛,某品牌汽车市场也异常火爆,销售量逐年上升.现统计某汽车专卖店5月份前5天每天电动汽车的实际销量,结果如下表所示.
日期编号
1
2
3
4
5
销量/部
8
a
12
b
23
与有较强的线性相关关系,且线性回归方程为,则等于______
【答案】33
【分析】求出、,根据回归直线方程必过样本中心点,代入计算可得.
【解析】依题意,,
又回归直线方程过点,所以,
解得.
故答案为:33.
题型05 残差的计算
【典例1】对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:
3
4
5
6
2.5
3
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本点(4,3)处的残差为-0.15,则表中的值为( )
A.3.3 B.4.5 C.5 D.5.5
【答案】B
【分析】先计算新的数据的平均值,后得到经验回归方程,再结合残差概念计算即可.
【解析】由题意可知,在样本(4,3)处的残差-0.15,则,即,
解得,即,
又,且线性方程过样本中心点(,),
则,则,
解得.
故答案为:B
残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
利用残差图判断模型拟合效果的方法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
【变式1】已知变量和的成对样本数据的经验回归方程为,且,当增加1个样本数据后,重新得到的经验回归方程的斜率为,则在新的经验回归方程的估计下,样本数据所对应的残差为( )
A. B. C.1 D.2
【答案】B
【分析】先计算新的数据的平均值,后得到经验回归方程,再结合残差概念计算即可.
【解析】由,可得增加1个样本数据后的平均数为,
因为,所以,
则增加1个样本数据后的平均数为,
所以,解得,
所以新的经验回归方程为,
则当时,,
样本点的残差为.
故选:B.
【变式2】已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
【答案】A
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线,估计的对应值,最后由残差的定义求解.
【解析】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以,有,故残差的绝对值为.
故选:A.
【变式3】已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
【答案】C
【分析】利用样本中心在回归直线上求参数判断A;根据回归直线一次项系数判断B;计算残差判断C;由回归直线的实际意义判断D.
【解析】由题设,所以,可得,故A错误;
所以,又,即与正相关,则样本相关系数,故B错误;
由时,,残差为,故C正确;
由回归方程说明随变化值的变化趋势,不能说变量每增加一个单位,的值一定增加个单位,故D错误.
故选:C.
【变式4】已知回归方程,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是 .
【答案】0.03/
【分析】由回归方程分别求出残差,从而可得残差的平方和.
【解析】解:当时,,,
当时,,
当时,,
所以,
故答案为:0.03.
【变式5】人工智能技术(简称AI技术)已成为引领世界新一轮科技革命和产业改革的战略性技术,AI技术加持的电脑(以下简称AI电脑)也在全国各地逐渐热销起来.下表为市统计的2024年11月至2025年3月这5个月该市AI电脑的月销量,其中为月份代号,(单位:万台)为AI电脑的月销量.
月份
2024年11月
2024年12月
2025年1月
2025年2月
2025年3月
月份代号
1
2
3
4
5
月销量
0.5
0.9
1
1.2
1.4
经过分析,与线性相关,且其线性回归方程为,则2025年3月的残差为________(实际值与预计值之差)
【答案】
【分析】求出样本中心点,带入回归方程求出,在求出对应的月销量预测值,结合月销量求出残差
【解析】因为,
所以,所以关于的线性回归方程为,
2025年3月对应的,故此时残差为.
故答案为:
【变式6】已知变量,线性相关,其一组样本数据满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到新的经验回归方程,则此时数据的残差为____________
【答案】2
【分析】根据已知数据求原数据的样本中心,再确定新数据的样本中心,进而得出新的回归直线方程,再结合残差的定义计算即可.
【解析】由题意可知,旧数据,则,
增加数据后,,,
将点代入中得, ,即,则,
当时,,故残差为.
故答案为:2.
题型06 刻画回归效果的方式
【典例1】在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
【答案】C
【分析】根据各个变量的意义作出判断,得到答案.
【解析】A选项,残差图带状区域越宽,说明误差大,模型的拟合效果越差,A错误;
B选项,残差平方和越小,模型的拟合效果越好,B错误;
C选项,决定系数越大,模型的拟合效果越好,C正确;
D选项,相关系数越大,说明两个变量线性相关性越强,与模型的拟合效果无关,D错误.
故选:C.
“R2、残差图”在回归分析中的作用:
(1)R2是用来刻画回归模型拟合效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归模型拟合效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
【变式1】某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】C
【分析】结合题意,由决定系数、相关系数、残差平方和及相关性的概念和性质作出判断.
【解析】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
对于A:决定系数越接近1,拟合的回归方程越优,
故去掉点后变大,越趋于1,故A错误;
对于B:相关系数越趋于1,拟合的回归方程越优,
由图可得与正相关,故会越接近1,即相关系数的值变大,故B错误;
对于C:残差平方和变小,拟合效果越好,故C正确;
对于D:解释变量与预报变量相关性增强,故D错误.
故选:C.
【变式2】下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
【答案】B
【分析】根据线性回归方程和相关系数及残差分析即可判断正误.
【解析】线性回归方程可以不经过任何一个样本点,①错,
值越大则两个变量的相关程度越强,②错,
决定系数越大,模型拟合效果越好,③对,
残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,④对.
故选:B.
【变式3】(多选)某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并计算得到经验回归直线的方程为,样本相关系数为,决定系数为,经过残差分析确定B为离群点,把它去掉后,再用剩下的5组数据计算得到经验回归直线的方程为,样本相关系数为,决定系数为,(其中决定系数是样本相关系数的平方,即,去掉离群点B后,拟合效果更好),则以下结论正确的是( )
A. B.
C.直线恰好过点C D.
【答案】AC
【分析】由回归直线方程的概念对选项逐一判断
【解析】对于A,B,由图可知与正相关,故故A正确,B错误
对于C,由,,故回归直线过,C正确
对于D,由题意得去掉离群点B后,拟合效果更好,则,故D错误
故选:AC
【变式4】(多选)以下说法正确的是( )
A.用样本相关系数来刻画成对样本数据的相关程度时,若越大,则成对样本数据的线性相关程度越强
B.经验回归方程一定经过点
C.用残差平方和来刻画模型的拟合效果时,若残差平方和越小,则相应模型的拟合效果越好
D.用决定系数来刻画模型的拟合效果时,若越小,则相应模型的拟合效果越好
【答案】ABC
【分析】根据回归分析的相关性质依次讨论各选项即可得答案.
【解析】对于A,用样本相关系数来刻画成对样本数据的相关程度时,若越大,
则成对样本数据的线性相关程度越强,故A正确;
对于B,经验回归方程一定经过点,故B正确;
对于C,用残差平方和来刻画模型的拟合效果时,若残差平方和越小,
则相应模型的拟合效果越好,故C正确;
对于D,用决定系数来刻画模型的拟合效果时,若越大,则相应模型的拟合效果越好,故D错误.
故选:ABC.
【变式5】(多选)某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
参考公式:相关系数,经验回归方程为,其中,,.
A. B. C. D.
【答案】ABD
【分析】根据给定条件,求出数据修正前后的相关量,再比较大小即得.
【解析】数据修正前:
,
,,
,
,,
数据修正后:
,
,,
,
,,
因此,,,而,则,ABD正确,C错误.
故选:ABD
题型07 求回归直线方程
【典例1】为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
【答案】A
【分析】根据公式可求得结果.
【解析】由题可得,,
由,
,
所以所求经验回归方程为.
故选:A.
求经验回归方程的基本步骤:
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算:,,x,xiyi;
(3)代入公式,求出=x+中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
【变式1】已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【答案】D
【分析】根据已知数据求,代入回归直线方程即可求解.
【解析】由题意得.
,,
所以,
故线性回归方程为.
故选:D.
【变式2】随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
【答案】D
【分析】利用正负相关的概念即可作出选项A的判断,利用经验回归直线经过样本中心点,可通过计算判断B,利用公式求参数和,即可判断C,利用相关系数接近于1可判断D.
【解析】由样本相关系数可得y与x呈正相关关系,故A错误;
由数据可得: ,
故经验回归直线经过点,故B错误;
由,
则,故经验回归方程为,故C错误;
由于样本相关系数较接近于1,则y与x的线性相关程度较强,故D正确;
故选:D.
【变式3】假设变量与变量的对观测数据为,两个变量满足一元线性回归模型.要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
【答案】A
【分析】化简为二次函数形式,根据二次函数性质得到最值.
【解析】因为
,
上式是关于的二次函数,
因此要使取得最小值,当且仅当的取值为.
故选:A.
题型08 线性回归分析
【典例1】(多选)关于线性回归方程的分析,下列哪些选项是正确的有( )
A.相关系数与回归系数的符号相同
B.回归直线一定经过样本中心点
C.线性回归方程中的越大,则两组变量的相关性越强
D.若相关系数,则说明与的线性关系足够强,适合用该回归方程进行预测
【答案】ABD
【分析】根据线性回归方程的相关性质,对每个选项逐一进行分析.
【解析】对于选项A,相关系数的计算公式为,回归系数的计算公式为.
在这两个公式中,分子均为,分母均为正数,所以与的符号由决定,二者符号相同.选项A正确.
对于选项B,对于线性回归方程,回归直线一定经过样本中心点.选项B正确.
对于选项C,线性回归方程中的表示回归直线的斜率,它反映的是自变量每变化一个单位时,因变量的平均变化量;而变量的相关性强弱是由相关系数来衡量的,越接近,两组变量的相关性越强.因此,的大小与两组变量的相关性强弱无关,选项C错误.
对于选项D,相关系数的绝对值越接近,表明两个变量的线性相关性越强.
当时,非常接近,说明与的线性关系足够强,此时适合用该回归方程进行预测.选项D正确.
故选:ABD.
【变式1】已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:若y关于t的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
年份
2020
2021
2022
2023
2024
年份代号t
1
2
3
4
5
成交额y(万元)
50
60
70
80
100
A.84万元 B.96万元 C.108万元 D.120万元
【答案】C
【分析】根据线性回归直线过样本中心点这一性质进行求解即可.
【解析】依题意,
又线性回归方程为必过点,
所以,解得,所以,
2025年的年份代号为6,所以当时,,
所以根据回归方程预测该店2025年“五一”黄金周的成交额是108万元.
故选:C.
【变式2】研究变量x,y得到n组成对数据,,2,…,n,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.相关系数不变 B.变量x与y的相关性变强
C.线性回归方程不变 D.回归系数不变
【答案】ACD
【分析】设,,得到,,根据相关系数的计算公式,可得判定A正确,B错误;根据回归系数的计算公式,可得判定C和D正确,即可得到答案.
【解析】设,,则,,所以,.
对于A、B中,由,
,,
则相关系数,
可得相关系数不变,所以变量x与y的相关性不变,故A正确,B错误;
对于C、D中,因为,
且回归直线过点,所以均不变,所以线性回归方程不变,故C和D都正确.
故选:ACD.
【变式3】(多选)下列说法正确的是( )
A.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越接近于1
B.经验回归方程为时,变量x和y负相关
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.对两个变量y和x进行回归分析,得到一组样本数据,,,,其经验回归方程必过点,则
【答案】BCD
【解析】对于A,若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的绝对值越接近于1,故A不正确;
对于B,因为斜率小于,所以变量x和y负相关,故B正确;
对于C,在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,故C正确;
对于D,因为经验回归方程必过点,所以,,所以,故D正确.
故选:BCD
【变式4】已知某产品近5年的市场销售单价(单位:元)如下表:
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
市场销售单价
2.0
2.2
2.4
3.6
4.8
(1)已知和线性相关,用最小二乘法求出关于的经验回归方程;
(2)试预测该产品2026年的市场销售单价.
附:经验回归方程中斜率和截距最小二乘估计公式分别为,.
【答案】(1);(2)元
【分析】(1)根据表中数据计算出,再结合参考数据利用公式即可计算出,进而得出线性回归方程;
(2)将代入即可预测.
【解析】(1)由题意得,.
因为,
.
所以,.
故经验回归方程为.
(2)由已知2026年对应的年份编号为7,令,则.
故预测该产品2026年的市场销售单价为元.
【变式5】新型抗生素是近年来针对耐药菌感染研发的抗菌药物.通过创新机制或结构改良,对抗传统抗生素难以治疗的超级细菌.实验人员用感染肺炎的小白鼠对一种新型抗生素进行实验,并对使用该种抗生素后,小白鼠血液中的肺炎链球菌值(单位:个/)进行检验,并统计得到了下表:
第15题表
第天
1
2
3
4
5
肺炎链球菌值(个/)
66
57
50
41
36
并计算得:
(1)计算变量和变量的样本相关系数,并说明两变量线性的相关程度(结果保留两位小数);
(2)若小白鼠血液中的肺炎链球菌值在区间内,则说明肺炎已治愈,用最小二乘法求关于的经验回归方程,并预测该小白鼠至少需要服药多少天才能痊愈.
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:
【答案】(1),两变量线性的相关程度很强; (2),8天
【分析】(1)利用样本相关系数公式直接求解,然后根据相关系数的性质判断即可.
(2)利用最小二乘法求得回归直线方程,令,解不等式即可得解.
【解析】(1)因为,
所以,
又
所以,
因为非常接近1,所以两变量线性的相关程度很强.
(2)由题,,
,,
所以,
,
所以关于的经验回归方程为,
令,解得,
所以该小白鼠至少需要服药8天才能痊愈.
题型09 非线性回归分析
【典例1】台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
【答案】(1)模型②的拟合程度更好; (2)13(百万辆)
【分析】(1)利用公式分别求出模型①和②的相关系数,结合相关系数的意义即可判断哪一个模型拟合程度更好;
(2)先利用最小二乘法求出关于的回归方程,再令,即可得解..
【解析】(1)设模型①和②的相关系数分别为,
由题意可得:,
,
所以,由相关系数的意义可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为,
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
解决非线性经验回归问题的方法及步骤:
(1)确定变量:确定解释变量为x,响应变量为y;
(2)画散点图:通过观察散点图并与学过的函数(幂函数、指数函数、对数函数、二次函数、反比例函数等)作比较,选取拟合效果好的函数模型;
(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
(4)分析拟合效果:通过计算决定系数来判断拟合效果;
(5)写出非线性经验回归方程.
【变式1】某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【答案】D
【分析】根据散点图的变化规律,寻求合适的特征函数.
【解析】由图可知,随着温度的增加,发芽率的增长速度越来越慢,符合对数型函数的特征.
故选:D.
【变式2】已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为.
x
2
3
4
5
y
若,则( )
A.6.8 B.7.8 C.8.8 D.9.8
【答案】D
【分析】求解样本中心,代入线性回归方程中可得,即可代入求解.
【解析】由题意可得
x
2
3
4
5
2
3
5
6
由表中数据可得,,
故在上,故,故,则
当时,即,则,解得,
故选:D
【变式3】某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【答案】D
【分析】求解样本中心,代入线性回归方程中可得,即可代入求解.
【解析】由表格中数据,得,
则,解得,因此,
由两边取对数,得,又,
所以,即.
故选:D
【变式4】已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数的图像附近,令,则可通过变换得到的线性回归方程为 .
【答案】
【分析】根据已知由对数的运算求出的表达式即可得.
【解析】由,得,即.
则线性回归方程为.
故答案为:
【变式5】某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
【答案】D
【分析】根据给定条件,利用决定系数大小关系排除AB;再利用数表中数据求出斜率判断CD.
【解析】由用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,
得,则指数型回归模型最适宜拟合y与x关系,排除AB;
设y与x之间关系的函数为,两边取对数得,设,则,
因此,,
即,,C错误,D正确.
故选:D.
【变式5】用模型去拟合与的关系,令,得到关于的回归直线方程为,则_________
【答案】e
【分析】根据题目信息化简关于的回归直线方程,对比给出的方程得的取值.
【解析】,所以.
故答案为:e.
【变式6】有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
运营里程y/万千米
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
【答案】(1)乙同学的更适合作为y关于x的回归方程类型,理由见解析; (2); (3)17.25
【分析】(1)比较已知的相关系数的大小;
(2)由已知数据求出,结合回归方程变形为,求出d和,从而可求出回归方程;
(3)利用非线性回归方程进行估计.
【解析】(1)因为,所以乙同学的更适合作为y关于x的回归方程类型.
(2),
由得,即.
则,
,
所以.
(3)2030年对应的年份代码,代入(2)中的y关于x的回归方程,
得.故预测2030年中国高铁运营里程将达到17.25万千米.
题型10 线性回归方程与其他章节的融合
【典例1】“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
【答案】(1),186; (2)分布列见解析,600
【分析】(1)求出、,从而求出回归方程,将代入求出即可;
(2)计算对应的概率的值,求出其分布列和期望值即可.
【解析】(1),
,
,
当时,(元),
即某天售出8箱水的预计收益是186元.
(2)X的取值可能为0,300,500,600,800,1000,
,,
,,
,,
即X的分布列为
X
0
300
500
600
800
1000
P
X的数学期望(元)
【变式1】近年来某用户保持连续增长,李明收集了年的年份代码与该在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r(精确到小数点后第二位,采用四舍五入法),并判断变量x与y之间的线性相关关系的强弱;
(2)从年中随机抽取三个不同年份所对应的在线用户数据,记最小的数据为,求的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.其中,.
【答案】(1),变量与之间有很强的线性正相关关系; (2)分布列见解析,
【分析】(1)利用所给相关系数公式计算即可得;
(2)得到的所有可能取值并计算对应概率后,结合分布列定义与期望定义计算即可得.
【解析】(1),,
则,
由,
同理,
则,
则,
由接近且为正,故变量与之间有很强的线性正相关关系;
(2)的可能取值为、、,
,
,
,
故的分布列为:
则.
【变式2】2025年渝超联赛正如火如荼地进行,联赛分两个阶段,第一阶段为各赛区比赛,第二阶段为总决赛.联赛积分规则为:胜一场得3分,平一场得1分,负一场得0分.九龙坡区队属于中心城区赛区,该赛区共有11支球队进行单循环比赛(每支参赛队伍均与其他所有队伍恰好比赛一次).已知九龙坡区队在与赛区中任何一个对手比赛时,获胜的概率均为,平局的概率均为,失利的概率均为,且各场比赛结果相互独立.
(1)九龙坡区队教练组为研究观众人数对球队成绩的影响,用模拟了该球队在5种不同观众人数(单位:千人)下的比赛表现(每场均模拟完整的小组赛).模拟数据如下:
场均观众人数 (千人)
8
12
6
15
9
小组赛积分
10
16
8
18
13
请计算场均观众人数 (千人)与小组赛积分的样本相关系数 (精确到0.01),并说明两者之间的线性相关程度;
(2)九龙坡区队在9月13日的揭幕赛中以失利于渝中区队,积0分.根据赛事规则推算,在中心城区赛区,球队至少需要获得23分才有晋级总决赛的可能.求九龙坡区队在第一阶段未来赛事中至少获得23分的概率.
附:相关系数,
【答案】(1),具有很强的正线性相关关系; (2).
【分析】(1)借助相关系数的计算公式计算即可得;
(2)分析所有可能情况并计算对应概率即可得.
【解析】(1),,
则,
,,
则,
因为,且接近于,
故说明场均观众人数与小组赛积分之间具有很强的正线性相关关系;
(2)九龙坡区队在第一阶段未来赛事中至少获得23分,
则设剩余场比赛中九龙坡区队比赛情况有以下几种:
一:场比赛全胜,概率为:;
二:胜场,平或负场,概率为:;
三:胜场,平场,概率为:;
故九龙坡区队在第一阶段未来赛事中至少获得23分的概率为:
.
【变式3】经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)适宜作为与之间的回归方程模型,
(2)答案见解析,.
【分析】(1)根据散点图确定模型,代入数据计算即可;
(2)确定随机变量取值,结合全概率公式计算概率,进而可求解;
【解析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型.
令,则,
,
,
所以,
所以关于的回归方程为.
(2)由题意设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的可能取值为,,,
设“所取两个鱼卵来自第批”,
所以,
设“所取两个鱼卵有个‘死卵’”,
由全概率公式得
,
,
,
所以取出“死卵”个数的分布列为
0
1
2
所以,
所以取出“死卵”个数的数学期望为.
【变式4】某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),回归方程为
(2)的分布列见解析;
【分析】(1)求出,将参考数据代入相关系数公式,求出的值,即可得出结论;再将数据代入最小二乘法公式,求出的值,即可得出回归直线方程;
(2)利用全概率公式求出每个人从2号门出校园的概率,由此可知,利用二项分布可得出随机变量的分布列,利用二项分布的期望、方差公式可得出的值.
【解析】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以y与x线性相关性很强,
可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件A,“甲从1号门进学校”为事件B,
“甲从2号门进学校”为事件C, “甲从3号门进学校”为事件D,
由题意可得,,,
,,,
由全概率公式得:
,同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,
,
故的分布列为:
0
1
2
3
4
所以.
1.已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
成交额(万元)
50
60
70
80
100
若关于的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
A.84万元 B.96万元 C.108万元 D.120万元
【答案】C
【分析】求出,,根据回归直线方程必过样本中心点求出,即可求出回归直线方程,再代入计算可得.
【解析】依题意,,
又线性回归方程为必过点,
所以,解得,所以,
2025年的年份代号为,所以当时,,
所以根据回归方程预测该店2025年“五一”黄金周的成交额是108万元.
故选:C.
2.某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【答案】B
【分析】由散点图的变化趋势,结合四个选项中函数的单调性即可得结论.
【解析】由图可知,图象随着x的增大而增高,且增长速度越来越快,
结合选项,可判断最适宜作为感染人数y和时间x的回归方程.
故选:B.
3.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
【答案】D
【分析】利用回归方程过样本点,可求参数,然后再根残差概念即可求解.
【解析】由表格中数据可求得:,
,
根据关于的经验回归方程必过点得:
,故经验回归方程为,
当时,预报值,
所以在样本点处的残差为,
故选:D.
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【答案】B
【分析】先根据散点图确定函数图象的趋势,再结合5个函数图象,进行判断选择.
【解析】从散点图知,样本点分布在抛物线上或对数型曲线上,结合所给5个的曲线类型,所以或较适宜.
故选:B
5.具有相关关系的变量与的一组样本数据如下,若已求得线性回归方程为,则下列选项错误的是( )
1
2
3
4
5
16
12
11
10
6
A.
B.与具有负相关关系
C.当时,的预测值为0
D.去掉其中某对样本数据,与的样本相关系数可能不变
【答案】C
【分析】由表格数据求出样本点的中心坐标,代入计算可判断A;由正负可判断B;代入计算可判断C;根据样本点的性质可判断D.
【解析】对于A,根据表中数据计算可得,,
代入线性回归方程得,得,故A正确;
对于B,因为,所以与具有负相关关系,故B正确;
对于C,当时,,故C错误;
对于D,样本点为样本中心点,去掉这个样本点,与的样本相关系数不变,故D正确.
故选:C.
6.下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
【答案】A
【分析】由残差平方和越小的模型,拟合的效果越好可判断A;x与y线性相关越强,在线性回归直线上的点不一定越多,可判断B;两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,可判断C;值越大,则模型的拟合效果越好,可判断D.
【解析】对于A,残差平方和越小的模型,拟合的效果越好,故A正确;
对于B,x与y线性相关越强,在线性回归直线上的点不一定越多,故B错误;
对于C,两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故C错误;
对于D,值越大,则模型的拟合效果越好,故D错误.
故选:A.
7.(多选)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:,
A.
B.由散点图知变量和正相关
C.相关系数r的绝对值|r|越接近0,表示x,y的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
【答案】ABC
【分析】选项A:通过直接计算样本均值验证正确;选项B:观察数据可知数据呈现正相关趋势;选项C:根据相关系数接近1表示强相关,接近0表示弱相关判定;选项D:正确回归方程需根据公式计算,从而做出判定.
【解析】对于选项A:计算样本均值:,,故选项A正确;
对于选项B:观察数据:当从1增加到7时,从2增加到9,整体呈递增趋势,表明和正相关,而非负相关,故选项B正确;
对于选项C:相关系数的绝对值越接近1,表示线性相关程度越强;越接近0,表示线性相关程度越弱.选项C的描述恰好相反,故选项C正确;
对于选项D:,,正确回归方程为 ,而选项D给出的方程为,不匹配,故选项D错误.
故选:ABC.
8.(多选)下列说法正确的是( )
A.数据的第40百分位数是9
B.若随机变量服从正态分布,则
C.回归直线至少经过点中的一个点
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量表示样本中黄球的个数,则服从超几何分布,且
【答案】AD
【分析】根据百分位数的概念计算判断A,根据正态分布的性质求解概率判断B,根据线性回归方程的性质判断C,根据超几何分布的概念及期望公式计算判断D.
【解析】对于A,由,知数据的第40百分位数为,正确;
对于B,,错误;
对于C,线性回归方程为不一定经过中的任何一个点,
但一定会经过样本中心点,错误;
对于D,由于是不放回地随机摸出20个球作为样本,
所以由超几何分布的定义知服从超几何分布,得,正确.
故选:AD
9.(多选)某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元
1
2
3
4
5
y/千人
5
6
8.1
9
14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
【答案】BC
【分析】利用题目的数据,得出,的最小二乘估计,即可得出回归方程,逐个逐项判断即可.
【解析】由题可知,令,,,
,
所以,
,故B正确;
所以,
令,,
所以曲线C不经过点,故A错误;
当时,千人,
所以若投入广告费9万元,则每晚客流量为万人,
因为每晚最多能接纳10万人,所以会超过夜市接纳能力,故C正确;
由可知,当时,,
所以当广告费从5万元增加到6万元,客流量增加千人,故D错误.
故选:BC
10.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 .
参考公式:.
【答案】/1.875
【分析】根据参考数据及公式先利用相关系数求出,再求即可.
【解析】因为,
所以,
由,
解得,
所以.
故答案为:
11.若变量和的4对观测数据为,两个变量满足一元线性回归模型(随机误差),请写出参数的最小二乘估计值为
【答案】5.1
【分析】化简为二次函数形式,根据二次函数性质得到最值.
【解析】依题意,两个变量满足一元线性回归模型,随机误差,
则随机误差平方和
,
易知,随机误差平方和是一个一元二次函数,
当时,随机误差平方和取得最小值,
因此参数的最小二乘估计值为5.1.
故答案为:5.1.
12.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则 , .
【答案】
【分析】两边同时取对数,求得,结合,求得,得到的值,再由,求得,结合,即可求解.
【解析】由,两边同时取对数,可得,
因为变换后的线性回归方程为,可得,
即,所以,
又因为,且,
所以,
因为,可得,所以.
故答案为:;.
13.根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩的使用量(千克)之间的对应数据的散点图如图所示.
(1)从散点图可以看出,可用线性回归方程拟合与的关系,请计算样本相关系数并判断它们的相关程度;
(2)求关于的线性回归方程,并预测液体肥料每亩的使用量为12千克时西红柿亩产量的增加量.
附:,,.
【答案】(1)答案见解析; (2),9.9
【分析】(1)由散点图中的数据求得相关数据,代入相关系数计算公式计算,即可判断;.
(2)根据相关公式求出,即得回归直线方程,代入数据计算即可预测结果.
【解析】(1)由题知,,,
所以,,,
所以,
所以与成正线性相关,且相关程度很强.
(2)因为,,
所以关于的线性回归方程为,
当时,,
所以可预测液体肥料每亩的使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
14.随着中美关税战的不断升级,某企业大大加强科技研发投入的力度,为确定下一年对某产品进行科技升级的研发费用,需了解该产品年研发费用(单位:千万元)对年销售量(单位:千万件)的影响.根据市场调研与模拟,对收集的数据进行初步处理,得到散点图及一些统计量的值如
30.5
15
15
46.5
表中,.
(1)根据散点图判断,与哪一个更适合作为年销售量关于年研发费用的回归方程模型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程,并估计年研发费用为27千万元时年销售量的值;
(3)科技升级后,该产品的效率大幅提高,经试验统计得大致服从正态分布.企业对科技升级团队的奖励方案如下:若不超过50%,不予奖励;若超过50%,但不超过53%,每件产品奖励2元;若超过53%,每件产品奖励4元.记为每件产品获得的奖励,求(精确到0.01).
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
②若随机变量,则,.
③.
【答案】(1)更适合; (2),8.1千万件; (3)
【分析】(1)根据散点图可判断,更适合;
(2)对两边取对数可得,再结合表中数据,即可求解;
(3)由正态分布的概率公式代入计算,再由期望的计算公式即可得到结果.
【解析】(1)根据散点图可判断,更适合作为关于的回归方程模型.
(2)由得:,即,
由表中数据得:,
所以,
所以,所以,
所以关于的回归方程为.
当时,,即年研发费用为27千万元时年销售量为8.1千万件.
(3)因为,,
所以
,
所以,
所以(元).
2 / 19
学科网(北京)股份有限公司
$
专题9.2 线性回归方程
教学目标
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义;
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,针对实际问题,会用一元线性回归模型进行预测;
3.通过学习线性回归方程及其含义,培养学生的数学抽象、数学运算及数据分析素养。
教学重难点
1.重点
用线性函数近似地刻画两个具有相关关系的变量之间的关系;线性回归方程.
2.难点
最小二乘法的思维过程,非线性回归方程
知识点01 线性回归模型
1.线性回归模型
把式子称为y关于x的线性回归模型.其中,y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;ε是y与a+bx之间的随机误差.
2.随机误差
在线性回归模型中,a和b为模型的未知参数,ε是y与a+bx之间的误差,通常ε为随机变量,称为随机误差.它的均值E(ε)=0,方差D(ε)=σ2>0.
线性回归模型的完整表达式为,在此模型中,随机误差ε的方差σ2越小,用a+bx预报真实值y的精度越高.
【即学即练】
1.下列说法中正确的个数是( )
⑴ 回归方程只适合用我们所研究的样本的总体;
⑵线性回归模型中,因变量y除了受自变量x的影响外,可能还受到其它因素的影响,这些因素会导致随机误差e的产生;
⑶设有一个回归方程 ,变量x增加一个单位时,y平均增加5个单位;
⑷用相关指数R2来刻画回归的效果时,R2取值越大,则残差平方和越小,模型拟合的效果就越好.
A.1 B.2 C.3 D.4
2.下列说法正确的是( )
A.样本数据点的中心不一定在线性回归直线上
B.残差平方和越小的模型,拟合的效果越好
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.如果两个变量的相关性越强,则相关系数就越接近于1
知识点02 线性回归模型参数的最小二乘估计
1.线性回归方程与最小二乘法
设满足线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=a+bxi+εi(i=1,2,…,n),得|yi-(a+bxi)|= |εi|,显然|εi|越小,表示样本数据点离直线y=a+bx的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=a+bx的“整体接近程度”.
当a,b的取值为时,Q达到最小.将称为y关于x的线性回归方程,其图形称为回归直线.其中称为回归截距,称为回归系数,称为回归值.
这种求线性回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计.
线性回归直线一定过点(,).
2.求线性回归方程的一般步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其线性回归方程;
(2)列表求出的值;
(3)利用公式先计算,再根据线性回归直线过样本点的中心计算;
(4)写出线性回归方程.
求线性回归方程,关键在于正确求出系数,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的线性回归方程才有意义.
3.残差分析
对于响应变量y,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
.
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
5.回归分析的三大常用结论
(1)求解线性回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据线性回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【即学即练】
1.某公司研发新产品投入金额(单位:万元)与该产品的收益(单位:万元)的5组统计数据如下表所示.由表中数据用最小二乘法求得投入金额与收益满足经验回归方程,则下列结论不正确的是( )
5
7
8
9
11
16
22
24
27
31
A. B.时,残差为
C.与有正相关关系 D.当新产品投入金额为5万元时,该产品的收益大约为万元
2.若变量和的4对观测数据为,两个变量满足一元线性回归模型(随机误差),请写出参数的最小二乘估计值为
3.现收集了一只红铃虫的产卵数和温度的7组观测数据,如下表所示.
21
23
25
27
29
32
35
个
7
11
21
24
66
115
325
试建立与之间的回归模型.
题型01 解释回归直线方程的意义
【典例1】(多选)关于变量与的线性回归分析,下列说法正确的是( )
A.若相关系数,则说明变量与的线性相关程度较强
B.回归直线必过点
C.若散点图中数据点从左上角到右下角分布,则,负相关
D.若回归方程为,则变量每增加1个单位时,变量一定增加2个单位
【变式1】下列有关一元线性回归分析的命题正确的是( )
A.在儿子身高关于父亲身高的经验回归方程中,若父亲身高每增加,其儿子身高平均增加
B.经验回归直线是经过散点图中样本数据点最多的那条直线
C.若两个变量的线性相关程度越强,则样本相关系数就越接近于1
D.若甲、乙两个模型的决定系数分别为0.87和0.78,则模型乙的拟合效果更好
【变式2】已知两个变量和之间有线性相关关系,经调查得到的样本数据如下表所示,根据表格中的数据求得回归直线方程,则( )
1
2
4
6
7
4
3
2
0
-2
A., B.,
C., D.,
【变式3】(多选)研究表明某地的山高(km)与该山的年平均气温(℃)具有相关关系,根据所采集的数据得到线性回归方程,则下列说法错误的是( )
A.年平均气温为5℃时该山高估计为5km
B.该山高为8km处的年平均气温估计为10℃
C.该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关
D.该地的山高与该山的年平均气温成负相关关系
题型02 利用散点图画求近似回归直线
【典例1】某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高(单位:
167
173
175
177
178
180
181
体重(单位:
90
54
59
64
67
72
76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
【变式1】若两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A. B. C. D.
【变式2】变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( )
A. B. C. D.
【变式3】(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
A. B.
C. D.
题型03 根据回归方程进行数据估计
【典例1】(多选)相关变量的样本数据如下表:
x
1
2
3
4
y
2
3
a
5
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.当每增加1时,约增加1.5 B.当每增加13时,一定增加8
C. 与呈正相关 D.
【变式1】某产品在去年6月至10月的销量(单位:万件)如下表所示:
月份
6
7
8
9
10
销量
1.1
1.3
1.9
2.2
2.5
若与线性相关,且线性回归方程为,则( )
A.样本的相关系数为负数
B.
C.
D.当时,销量为3.28万件
【变式2】(多选)变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是( ).
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间成负相关关系
B.
C.可以预测当时,y约为2.6
D.由表格数据知,该线性回归直线必过点
题型04 样本中心点及其应用
【典例1】某饮料店某5天的日销售收入(单位:百元)与当天平均气温(单位:℃)之间的数据如下表:
0
1
2
5
4
2
2
1
若与之间是线性相关关系,且关于的经验回归方程是,则实数的值是( )
A.3 B.2.8 C.2.6 D.2.4
【变式1】某专营店统计了新产品A上市后第天到该专营店购物的人数y(单位:人).
x
1
2
3
4
5
y
15
20
35
80
150
根据表中数据,可知y与x的经验回归方程为,则( )
A. B.22 C. D.39
【变式2】稀土被誉为工业的维生素,具有无法取代的优异磁、光、电性能,对改善产品性能,增加产品品种,提高生产效率起到了巨大的作用.右表是2024年前5个月某国稀土出口均价(单位:万元吨)与月份的统计数据.若与的线性回归方程为,则的值为( )
1
2
3
4
5
1.7
2.4
2.0
1.6
A.1.4 B.1.5 C.1.6 D.1.7
【变式3】近年来,我国电动汽车产业发展迅猛,某品牌汽车市场也异常火爆,销售量逐年上升.现统计某汽车专卖店5月份前5天每天电动汽车的实际销量,结果如下表所示.
日期编号
1
2
3
4
5
销量/部
8
a
12
b
23
与有较强的线性相关关系,且线性回归方程为,则等于______
题型05 残差的计算
【典例1】对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:
3
4
5
6
2.5
3
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本点(4,3)处的残差为-0.15,则表中的值为( )
A.3.3 B.4.5 C.5 D.5.5
残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
利用残差图判断模型拟合效果的方法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
【变式1】已知变量和的成对样本数据的经验回归方程为,且,当增加1个样本数据后,重新得到的经验回归方程的斜率为,则在新的经验回归方程的估计下,样本数据所对应的残差为( )
A. B. C.1 D.2
【变式2】已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差的绝对值为( )
A.0.1 B.0.2 C.0.3 D.0.4
【变式3】已知在一定范围内,水稻对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽水稻实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度(单位:cm)与氮元素吸收量(单位:mg/天)的相关数据,如下表所示:
9.9
12.1
14.8
18.2
19.9
21.8
25.1
27.7
30.4
32.1
0.30
0.34
0.42
0.50
0.55
0.60
0.71
0.74
0.78
0.86
根据表中数据可得及经验回归方程为,则( )
A.
B.变量和变量的样本相关系数
C.当时,残差为0
D.水稻根长度每增加1cm,一天的氮元素吸收量一定增加mg
【变式4】已知回归方程,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是 .
【变式5】人工智能技术(简称AI技术)已成为引领世界新一轮科技革命和产业改革的战略性技术,AI技术加持的电脑(以下简称AI电脑)也在全国各地逐渐热销起来.下表为市统计的2024年11月至2025年3月这5个月该市AI电脑的月销量,其中为月份代号,(单位:万台)为AI电脑的月销量.
月份
2024年11月
2024年12月
2025年1月
2025年2月
2025年3月
月份代号
1
2
3
4
5
月销量
0.5
0.9
1
1.2
1.4
经过分析,与线性相关,且其线性回归方程为,则2025年3月的残差为________(实际值与预计值之差)
【变式6】已知变量,线性相关,其一组样本数据满足,用最小二乘法得到的经验回归方程为,若增加一个数据后,得到新的经验回归方程,则此时数据的残差为____________
题型06 刻画回归效果的方式
【典例1】在线性回归模型中,能说明模型的拟合效果越好的是( )
A.残差图带状区域越宽 B.残差和越小
C.决定系数越大 D.相关系数r越大
“R2、残差图”在回归分析中的作用:
(1)R2是用来刻画回归模型拟合效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归模型拟合效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
【变式1】某水文站为了研究所在河段降雨量(单位:)与水位增长量(单位:)之间的关系,记录了9次相关数据,绘制出如下散点图,并利用线性回归模型进行拟合. 若将图中9个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的值变小
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【变式2】下列说法中正确的有( )
①线性回归方程至少经过一个样本点;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大则两个变量的相关程度越强;
③在回归分析中,决定系数的模型比的模型拟合效果要好;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高.
A.1个 B.2个 C.3个 D.4个
【变式3】(多选)某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并计算得到经验回归直线的方程为,样本相关系数为,决定系数为,经过残差分析确定B为离群点,把它去掉后,再用剩下的5组数据计算得到经验回归直线的方程为,样本相关系数为,决定系数为,(其中决定系数是样本相关系数的平方,即,去掉离群点B后,拟合效果更好),则以下结论正确的是( )
A. B.
C.直线恰好过点C D.
【变式4】(多选)以下说法正确的是( )
A.用样本相关系数来刻画成对样本数据的相关程度时,若越大,则成对样本数据的线性相关程度越强
B.经验回归方程一定经过点
C.用残差平方和来刻画模型的拟合效果时,若残差平方和越小,则相应模型的拟合效果越好
D.用决定系数来刻画模型的拟合效果时,若越小,则相应模型的拟合效果越好
【变式5】(多选)某同学研究两个变量与的关系,收集了以下5组数据:
1
2
3
4
5
1
4
1
9
10
根据上表数据,求得相关系数为,经验回归方程为,决定系数为.后经检查发现当时记录的有误,实际值应为,修正数据后,求得新相关系数为,新回归方程为,新决定系数为,则以下结论正确的是( )
参考公式:相关系数,经验回归方程为,其中,,.
A. B. C. D.
题型07 求回归直线方程
【典例1】为预测某种产品的回收率,需要研究它和原料有效成分含量之间的相关关系,若已知与之间存在线性相关关系,现取了8组观察值,计算知,,,,则关于的经验回归方程是( )
A. B.
C. D.
求经验回归方程的基本步骤:
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算:,,x,xiyi;
(3)代入公式,求出=x+中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
【变式1】已知变量x和y的统计数据如下表:
x
2
4
5
6
8
y
30
40
60
50
70
若x和y线性相关,则y关于x的线性回归方程为( )
(附:线性回归方程中斜率和截距的最小二乘估计公式分别为
A. B.
C. D.
【变式2】随机抽取5家超市,得到其广告支出x(万元)与销售额y(万元)的数据如下:
超市
A
B
C
D
E
广告支出x
1
2
4
6
7
销售额y
20
30
40
44
46
(参考公式:,,参考数据:样本相关系数),则下列判断正确的是( )
A.y与x呈负相关关系 B.经验回归直线经过点
C.经验回归方程为 D.y与x的线性相关程度较强
【变式3】假设变量与变量的对观测数据为,两个变量满足一元线性回归模型.要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
题型08 线性回归分析
【典例1】(多选)关于线性回归方程的分析,下列哪些选项是正确的有( )
A.相关系数与回归系数的符号相同
B.回归直线一定经过样本中心点
C.线性回归方程中的越大,则两组变量的相关性越强
D.若相关系数,则说明与的线性关系足够强,适合用该回归方程进行预测
【变式1】已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:若y关于t的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
年份
2020
2021
2022
2023
2024
年份代号t
1
2
3
4
5
成交额y(万元)
50
60
70
80
100
A.84万元 B.96万元 C.108万元 D.120万元
【变式2】研究变量x,y得到n组成对数据,,2,…,n,先进行一次线性回归分析,接着增加一组成对数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.相关系数不变 B.变量x与y的相关性变强
C.线性回归方程不变 D.回归系数不变
【变式3】(多选)下列说法正确的是( )
A.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越接近于1
B.经验回归方程为时,变量x和y负相关
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.对两个变量y和x进行回归分析,得到一组样本数据,,,,其经验回归方程必过点,则
【变式4】已知某产品近5年的市场销售单价(单位:元)如下表:
年份
2020
2021
2022
2023
2024
年份编号
1
2
3
4
5
市场销售单价
2.0
2.2
2.4
3.6
4.8
(1)已知和线性相关,用最小二乘法求出关于的经验回归方程;
(2)试预测该产品2026年的市场销售单价.
附:经验回归方程中斜率和截距最小二乘估计公式分别为,.
【变式5】新型抗生素是近年来针对耐药菌感染研发的抗菌药物.通过创新机制或结构改良,对抗传统抗生素难以治疗的超级细菌.实验人员用感染肺炎的小白鼠对一种新型抗生素进行实验,并对使用该种抗生素后,小白鼠血液中的肺炎链球菌值(单位:个/)进行检验,并统计得到了下表:
第15题表
第天
1
2
3
4
5
肺炎链球菌值(个/)
66
57
50
41
36
并计算得:
(1)计算变量和变量的样本相关系数,并说明两变量线性的相关程度(结果保留两位小数);
(2)若小白鼠血液中的肺炎链球菌值在区间内,则说明肺炎已治愈,用最小二乘法求关于的经验回归方程,并预测该小白鼠至少需要服药多少天才能痊愈.
参考数据及公式:样本数据的相关系数,其回归直线的斜率和截距的最小二乘估计值分别为:
题型09 非线性回归分析
【典例1】台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:
令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
附:①相关系数,回归直线中公式分别为,;
②参考数据:,,,
解决非线性经验回归问题的方法及步骤:
(1)确定变量:确定解释变量为x,响应变量为y;
(2)画散点图:通过观察散点图并与学过的函数(幂函数、指数函数、对数函数、二次函数、反比例函数等)作比较,选取拟合效果好的函数模型;
(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
(4)分析拟合效果:通过计算决定系数来判断拟合效果;
(5)写出非线性经验回归方程.
【变式1】某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B. C. D.
【变式2】已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为.
x
2
3
4
5
y
若,则( )
A.6.8 B.7.8 C.8.8 D.9.8
【变式3】某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数学建模活动中,将时间分钟与温度(摄氏度)的关系用模型(其中为自然对数的底数)拟合.设,变换后得到一组数据:
2
2.5
3
3.5
4
4.04
4.01
3.98
3.96
3.91
由上表可得线性回归方程,则等于( )
A.-4 B. C.4.16 D.
【变式4】已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数的图像附近,令,则可通过变换得到的线性回归方程为 .
【变式5】某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为和,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( )
参考公式:用最小二乘法求经验回归直线方程的系数公式为.
参考数据:令
3
2.5
0.5
10
12
6
A. B. C. D.
【变式5】用模型去拟合与的关系,令,得到关于的回归直线方程为,则_________
【变式6】有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
运营里程y/万千米
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
题型10 线性回归方程与其他章节的融合
【典例1】“爱国、敬业、诚信、友善”是社会主义核心价值观个人层面的价值准则.某学校为加强对学生的教育,倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱,现统计了连续5天的售出和收益情况,如下表:
售出水量
(单位:箱)
7
6
6
5
6
收益
(单位:元)
165
142
148
125
150
(1)求收益y关于售出水量x的回归直线方程,并计算每天售出8箱水时预计收益是多少元?
(2)期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级从第201名到500名的同学,获二等奖学金300元;考入年级501名及以后的特困生不获得奖学金.甲、乙两名学生获一等奖学金的概率均为,获二等奖学金的概率均为,不获得奖学金的概率均为.如果已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X的分布列及数学期望
附:
【变式1】近年来某用户保持连续增长,李明收集了年的年份代码与该在线用户数y(单位:万)的数据,具体如下表所示:
年份代码x
1
2
3
4
5
在线用户数y(单位:万)
80
150
210
260
300
(1)求样本相关系数r(精确到小数点后第二位,采用四舍五入法),并判断变量x与y之间的线性相关关系的强弱;
(2)从年中随机抽取三个不同年份所对应的在线用户数据,记最小的数据为,求的分布列及数学期望.
注:样本相关系数.当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.其中,.
【变式2】2025年渝超联赛正如火如荼地进行,联赛分两个阶段,第一阶段为各赛区比赛,第二阶段为总决赛.联赛积分规则为:胜一场得3分,平一场得1分,负一场得0分.九龙坡区队属于中心城区赛区,该赛区共有11支球队进行单循环比赛(每支参赛队伍均与其他所有队伍恰好比赛一次).已知九龙坡区队在与赛区中任何一个对手比赛时,获胜的概率均为,平局的概率均为,失利的概率均为,且各场比赛结果相互独立.
(1)九龙坡区队教练组为研究观众人数对球队成绩的影响,用模拟了该球队在5种不同观众人数(单位:千人)下的比赛表现(每场均模拟完整的小组赛).模拟数据如下:
场均观众人数 (千人)
8
12
6
15
9
小组赛积分
10
16
8
18
13
请计算场均观众人数 (千人)与小组赛积分的样本相关系数 (精确到0.01),并说明两者之间的线性相关程度;
(2)九龙坡区队在9月13日的揭幕赛中以失利于渝中区队,积0分.根据赛事规则推算,在中心城区赛区,球队至少需要获得23分才有晋级总决赛的可能.求九龙坡区队在第一阶段未来赛事中至少获得23分的概率.
附:相关系数,
【变式3】经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
360
54.5
1360
44
384
3
588
32
6430
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【变式4】某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期
10月1日
10月2日
10月3日
10月4日
10月5日
第x天
1
2
3
4
5
参观人数y
2.2
2.6
3.1
5.2
6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
1.已知某一家旗舰店近五年“五一”黄金周期间的成交额如下表:
年份
2020
2021
2022
2023
2024
年份代号
1
2
3
4
5
成交额(万元)
50
60
70
80
100
若关于的线性回归方程为,则根据回归方程预测该店2025年“五一”黄金周的成交额是( )
A.84万元 B.96万元 C.108万元 D.120万元
2.某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
3.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了次试验,收集数据如下表所示.
零件数个
加工时间
由上表数据求得关于的经验回归方程为,据此计算出样本点处的残差为( )
A. B. C. D.
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
5.具有相关关系的变量与的一组样本数据如下,若已求得线性回归方程为,则下列选项错误的是( )
1
2
3
4
5
16
12
11
10
6
A.
B.与具有负相关关系
C.当时,的预测值为0
D.去掉其中某对样本数据,与的样本相关系数可能不变
6.下列命题为真命题的是( )
A.残差平方和越小的模型,拟合的效果越好
B.若x与y线性相关越强,则在线性回归直线上的点越多
C.两个随机变量的线性相关性越强,则相关系数r的值越接近于1
D.线性回归分析中决定系数值越小,则模型的拟合效果越好
7.(多选)某企业根据市场调研得到研发投入(亿元)与产品收益(亿元)的数据统计如下,则下列叙述正确的是( )
参考公式:,
A.
B.由散点图知变量和正相关
C.相关系数r的绝对值|r|越接近0,表示x,y的线性相关程度越弱
D.用最小二乘法求得关于的线性回归直线方程为
8.(多选)下列说法正确的是( )
A.数据的第40百分位数是9
B.若随机变量服从正态分布,则
C.回归直线至少经过点中的一个点
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量表示样本中黄球的个数,则服从超几何分布,且
9.(多选)某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元
1
2
3
4
5
y/千人
5
6
8.1
9
14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
10.将某保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中6个区域,统计这些区域内的某种水源指标和某植物分布的数量,得到样本,且其相关系数,记关于的线性回归方程为.经计算可知:,则 .
参考公式:.
11.若变量和的4对观测数据为,两个变量满足一元线性回归模型(随机误差),请写出参数的最小二乘估计值为
12.一组数据组的散点图趋向于落在中间下凸且递增的某条曲线附近,现用模型拟合数据组,其中,设,变换后的线性回归方程为,则 , .
13.根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩的使用量(千克)之间的对应数据的散点图如图所示.
(1)从散点图可以看出,可用线性回归方程拟合与的关系,请计算样本相关系数并判断它们的相关程度;
(2)求关于的线性回归方程,并预测液体肥料每亩的使用量为12千克时西红柿亩产量的增加量.
附:,,.
14.随着中美关税战的不断升级,某企业大大加强科技研发投入的力度,为确定下一年对某产品进行科技升级的研发费用,需了解该产品年研发费用(单位:千万元)对年销售量(单位:千万件)的影响.根据市场调研与模拟,对收集的数据进行初步处理,得到散点图及一些统计量的值如
30.5
15
15
46.5
表中,.
(1)根据散点图判断,与哪一个更适合作为年销售量关于年研发费用的回归方程模型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程,并估计年研发费用为27千万元时年销售量的值;
(3)科技升级后,该产品的效率大幅提高,经试验统计得大致服从正态分布.企业对科技升级团队的奖励方案如下:若不超过50%,不予奖励;若超过50%,但不超过53%,每件产品奖励2元;若超过53%,每件产品奖励4元.记为每件产品获得的奖励,求(精确到0.01).
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
②若随机变量,则,.
③.
2 / 19
学科网(北京)股份有限公司
$