内容正文:
第二课时 非线性回归模型及回归分析
课标要求
1.进一步掌握一元线性回归模型参数的统计意义(数学抽象).
2.了解非线性回归模型(数学抽象).
3.会通过分析残差和利用R2判断回归模型的拟合效果(数学运算、数据分析).
情境导入
设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如下表所示,
第x天
1
4
9
16
25
36
49
高度y/cm
0
4
7
9
11
12
13
作出这组数据的散点图近似描述y与x的关系,很显然,这些散点不在一条直线附近.你能求出这个函数模型吗?
知识点一|非线性回归方程
【知识梳理】
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
2.非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
【例1】 为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作响应变量,作出这些数据的散点图,根据散点图判断y=a+bx与y=c1哪一个作为繁殖的个数y关于时间x变化的回归方程类型最佳;(给出判断即可,不必说明理由)
(2)根据(1)中判断的最佳回归方程及表中的数据,建立y关于x的回归方程;
(xi-)2
(xi-)·(yi-)
(xi-)·
(zi-)
3.5
62.83
3.53
17.5
596.505
12.04
其中zi=ln yi,=zi.
参考公式:=,=-.
(3)试估计第7天细菌繁殖的个数.(参考数据e5.938≈379)
解:(1)作出散点图,如图1所示.
由散点图看出样本点分布在一条指数函数y=c1的周围,于是选择y=c1.
解:(2)令z=ln y,则=x+.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图2所示.
从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.
由==0.688,
则=-=1.122,
因此=0.688x+1.122,从而=e0.688x+1.122.
(3)∵=e0.688x+1.122,∴当x=7时,≈379,
故第7天细菌繁殖的个数约为379.
【规律方法】
非线性经验回归方程的求法
训练1 “绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以下表格和散点图反映了近几年我国某新能源汽车的年销售量情况.
年份
2021
2022
2023
2024
2025
年份代码x
1
2
3
4
5
某新能源汽车年销售量y/万辆
1.5
5.9
17.7
32.9
55.6
(1)请根据散点图判断,y=bx+a与y=cx2+d中哪一个更适宜作为年销售量y关于年份代码x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测2026年我国该新能源汽车的年销售量.(精确到0.1)
参考数据:=22.72,(wi-)2=374,(wi-)(yi-)=851.2(其中wi=).
解:(1)根据散点图可知,y=cx2+d更适宜作为年销售量y关于年份代码x的回归方程类型.
(2)令w=x2,则=w+.
易知=11,==≈2.28,
=-≈22.72-2.28×11=-2.36,
所以=2.28w-2.36,
所以y关于x的回归方程为=2.28x2-2.36.
令x=6,得=79.72≈79.7.
故预测2026年我国该新能源汽车的年销售量为79.7万辆.
知识点二|残差与残差分析
问题 阅读教材P110~P112,思考下面问题.
已知具有相关关系的两个变量的经验回归方程为=x+.
(1)与响应变量Y相等吗?
提示:不一定.
(2)与响应变量Y之间误差大了好还是小了好?
提示:越小越好.
【知识梳理】
1.残差及残差图
(1)对于响应变量Y,通过观测得到的数据称为 观测值 ,通过经验回归方程得到的称为 预测值 , 观测值 减去 预测值 所得的差称为残差;
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.
2.残差分析
残差 是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为 残差分析 .
【例2】 (1)对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( A )
解析:(1)用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为=2x+,若样本点(r,1)与(1,s)的残差相同,则有( C )
A.r=s B.s=2r
C.s=-2r+3 D.s=2r+1
解析:(2)样本点(r,1)的残差为1-2r-,样本点(1,s)的残差为s--2,依题意得1-2r-=s--2,故s=-2r+3.
【规律方法】
1.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
2.残差是随机误差的估计值,=yi-.
训练2 (1)某种产品的广告支出x(单位:万元)与销售额y(单位:万元)之间有如表关系,y与x的经验回归方程为=6.5x+17.5,当广告支出为5万元时,随机误差的残差为( A )
x
2
4
5
6
8
y
30
40
60
50
70
A.10万元 B.20万元
C.30万元 D.40万元
解析:(1)因为y与x的经验回归方程为=6.5x+17.5,所以当x=5时,=6.5×5+17.5=50.由表格知当广告支出5万元时,销售额为60万元,所以随机误差的残差为60-50=10(万元).
(2)已知某成对样本数据的残差图如图,则样本点数据中可能不准确的是从左到右第 6 个.
解析:(2)原始数据中的可疑数据往往是残差绝对值过大的那个数据,即偏离平衡位置过大的数据.
知识点三|残差平方和与决定系数R2
【知识梳理】
1.残差平方和法:残差平方和()2越小,模型的拟合效果越好.
2.决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越大,模型的拟合效果越好;R2越小,模型的拟合效果越差.
【例3】 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
(1)求y关于x的经验回归方程;
解:(1)由题可得=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程为=-1.15x+28.1.
(2)借助残差平方和与R2说明回归模型拟合效果的好坏.
(参考公式及数据:=,=-,=1 660,xiyi=620,(yi-)2=53.2)
解:(2)列出残差表为
yi-
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以(yi-)2=0.3,且(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
【规律方法】
刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好;
(3)决定系数法:R2=1-越接近1,表明模型的拟合效果越好.
训练3 某市春节期间7家超市的广告费支出xi(单位:万元)和销售额yi(单位:万元)的数据如下:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y关于x的经验回归方程;
(2)若用对数回归模型拟合y与x的关系,可得经验回归方程=12ln x+22,经计算得出线性回归模型和对数回归模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.
参考数据及公式:=8,=42,xiyi=2 794,=708,=,=-,ln 2≈0.7.
解:(1)由统计数据及公式,
得===1.7,
=-=28.4,
故y关于x的经验回归方程为=1.7x+28.4.
(2)因为0.75<0.97,
所以对数回归模型更合适.
把x=8代入回归方程=12ln x+22,
得=12×ln 8+22=36ln 2+22≈47.2.
所以当x=8万元时,预测A超市的销售额为47.2万元.
1.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
则回归模型拟合效果最好的是( )
A.甲 B.乙
C.丙 D.丁
解析:A 决定系数R2越大,表示回归模型的拟合效果越好.
2.某校数学学习兴趣小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,由试验数据得到如图所示的散点图.由此散点图,可以得出最适宜作为发芽率y和温度x的回归模型的是( )
A.y=a+bx B.y=a+bln x
C.y=a+bex D.y=a+bx2
解析:B 由散点图可知,数据分布成递增趋势,且呈现上凸效果,即增加越来越缓慢.A中,y=a+bx是直线型,均匀增长,不符合要求;B中,y=a+bln x是对数型,增长越来越缓慢,符合要求;C中,y=a+bex是指数型,爆炸式增长,增长越来越快,不符合要求;D中,y=a+bx2是二次函数型,图象既有上升,又有下降,不符合要求.
3.下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:℃)的对比表,已知由表中数据计算得到y关于x的经验回归方程为=x+27,则相应于点(10,20)的残差为 -1 .
气温x/℃
5
10
15
20
25
杯数y
26
20
16
14
14
解析:==15,==18,代入经验回归方程=x+27得18=15+27,解得=-0.6,则经验回归方程为=-0.6x+27.所以相应于点(10,20)的残差为20-(-0.6×10+27)=-1.
4.已知变量y关于x的非线性经验回归方程为y=ebx-0.5,若对y=ebx-0.5两边取自然对数,可以发现ln y与x线性相关,现有一组数据如下表所示,x=5时,预测y值为 e7.5 .
x
1
2
3
4
y
e
e3
e4
e6
解析:对y=ebx-0.5两边取对数,得ln y=bx-0.5,令z=ln y则z=bx-0.5,列表如下:
x
1
2
3
4
y
e
e3
e4
e6
z
1
3
4
6
==2.5,==3.5 ,代入=b-0.5得3.5=b·2.5-0.5,故b=1.6,故z=1.6x-0.5,y=e1.6x-0.5,当x=5时,y=e1.6×5-0.5=e7.5.
课堂小结
1.理清单
(1)非线性回归方程;
(2)残差与残差分析;
(3)残差平方和与决定系数R2.
2.应体会
将非线性回归问题转化为线性回归问题体现了转化与化归思想.
3.避易错
(1)非线性经验回归方程转化为线性经验回归方程时的转化方法;
(2)混淆残差图法、残差平方和法和R2法的概念,导致刻画回归效果出错.
1.一组数据(xi,yi)经过分析,提出了四种回归模型①②③④,四种模型的残差平方和(yi-)2的值分别是1.23,0.80,0.12,1.36.则拟合效果最好的是( )
A.模型① B.模型②
C.模型③ D.模型④
解析:C 残差平方和越小则拟合效果越好,而模型③的残差平方和最小,所以C正确.
2.若一函数模型为y=ax2+bx+c(a≠0),将y转化为t的经验回归方程,则需做变换t=( )
A.x2 B.(x+a)2
C.(x+)2 D.以上都不对
解析:C y=ax2+bx+c=a(x+)2+(a≠0),可令t=(x+)2,则y=at+为y关于t的经验回归方程.
3.已知变量y关于变量x的经验回归方程为=bln x+0.24,其一组数据如表所示:
x
e
e3
e4
e6
e7
y
1
2
3
4
5
若x=e10,则y的值大约为( )
A.4.94 B.5.74 C.6.81 D.8.04
解析:C 令t=ln x,则=bt+0.24.由题意得,=4.2,=3,由经验回归直线过样本的中心点,有b=,所以=ln x+0.24,将x=e10代入得≈6.81.故选C.
4.〔多选〕某研究小组采集了5组数据,作出如图所示的散点图.若去掉D(3,10)后,下列说法正确的是( )
A.样本相关系数r变小
B.决定系数R2变大
C.残差平方和变大
D.解释变量x与预报变量y的相关性变强
解析:BD 根据散点图可知,去掉点D(3,10)后,y与x的线性相关性加强,且为正相关,样本相关系数r变大,则A错,D对;去掉点D(3,10)后,残差平方和变小,则R2变大,B对,C错.故选B、D.
5.〔多选〕某种商品的价格x(单位:元/kg)与日需求量y(单位:kg)之间的对应数据如下表所示:
x
10
15
20
25
30
y
11
10
8
6
5
根据表中的数据可得经验回归方程为=x+14.4,则以下说法正确的是( )
A.样本相关系数r>0
B.=-0.32
C.若该商品的价格为35元/kg,则日需求量大约为3.2 kg
D.第四个样本点对应的残差为-0.4
解析:BCD 对于A、B,由题表中的数据,得==20,==8,将,代入=x+14.4,得=-0.32,所以A错误,B正确;对于C,将x=35代入=-0.32x+14.4,得=3.2,所以日需求量大约为3.2 kg,所以C正确;对于D,第四个样本点对应的残差为y4-=6-(-0.32×25+14.4)=-0.4,所以D正确.故选B、C、D.
6.在研究气温和热茶销售杯数的关系时,若求得决定系数R2≈0.85,则表明气温解释了 85%的热茶销售杯数变化,而随机误差贡献了剩余的 15% ,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析:由决定系数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
7.很多人喜欢将自己身边的事情拍成短视频发布到网上,某人将发布短视频后1~8天的点击量的数据进行了初步处理,得到下面的残差图及一些统计量的值.
(xi-)2
(ti-)2
4.5
5
25.5
42
3 570
(xi-)(yi-)
(ti-)(yi-)
72.8
686.8
其中ti=.
某位同学分别用两种模型:①=bx2+a,②=dx+c进行拟合.
(1)根据残差图,比较模型①、②的拟合效果,应该选择哪个模型?
(2)根据(1)的判断结果及表中数据建立y关于x的经验回归方程;(在计算回归系数时精确到0.01)
(3)预测该短视频发布后第10天的点击量是多少?
解:(1)由残差图可知,模型①的拟合效果更好.
(2)∵ti=,∴=t+.
∵==≈0.19,
∴=-=5-0.19×25.5≈0.16,
∴=0.19x2+0.16.
(3)由(2)知,令x=10,则=0.19×100+0.16=19.16.
8.如图是一组实验数据的散点图,拟合方程为y=+c(x>0),令t=,则y关于t的经验回归直线过点(2,5),(12,25),则当y∈(1.01,1.02)时,x的取值范围是( )
A.(0.01,0.02) B.(50,100)
C.(0.02,0.04) D.(100,200)
解析:D 根据题意可得y=bt+c(t>0),由y关于t的经验回归直线过点(2,5),(12,25)可得:所以所以y=2t+1,由y∈(1.01,1.02)可得1.01<2t+1<1.02,所以0.005<t<0.01,所以0.005<<0.01,所以100<x<200,故选D.
9.随着互联网的发展,“美团单车”“哈啰出行”等共享单车服务在我国各城市迅猛发展.为掌握共享单车在某地区的发展情况,某调查机构从该地区抽取了4个城市,分别收集和分析了共享单车的A,B两项指标数xi,yi(i=1,2,3,4),数据如表所示.由表可得y关于x的经验回归方程为=4x2+a,则此经验回归模型中A指标数x=2时的残差为( )
A指标数x
1
2
3
4
B指标数y
6
12
35
63
A.0 B.-1 C.-2 D.-3
解析:D 因为=4x2+a是非线性的,所以当将其看作y关于x2的函数时,即为线性方程,则=7.5,=29,所以29=4×7.5+a,得a=-1,所以=4x2-1.将x=2代入方程可得=15,则12-15=-3,所以残差为-3.故选D.
10.〔多选〕某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如下表所示.
广告支出费用x
2.2
2.6
4.0
5.3
5.9
销售量y
3.8
5.4
7.0
11.6
12.2
根据表中的数据可得经验回归方程为=2.27x+,R2≈0.96,以下说法正确的是( )
A.第三个样本点对应的残差=-1
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.该模型拟合效果较好
D.用该经验回归方程可以很准确地预测广告费用为20万元时的销售量
解析:AC 对于A项:由题意得==4,==8,代入=2.27x+,得=-1.08,故=2.27x-1.08,所以=7-(2.27×4.0-1.08)=-1,故A项正确;对于B、C项:由于R2≈0.96,所以该回归模型拟合的效果比较好,故C项正确;故对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,故B项错误;对于D项:由于样本的取值范围会影响回归方程的使用范围,而广告费用20万元远大于表格中广告费用值,故用该经验回归方程预测广告费用为20万元时的销售量不一定准确,故D项错误.故选A、C.
11.已知指数曲线y=aebx进行线性变换后得到的经验回归方程为u=1-x,则二次函数y=x2+bx+a的单调递增区间为 (,+∞) .
解析:∵y=aebx,∴两边取对数,作线性变换得ln y=ln(aebx)=ln a+ln ebx=ln a+bx,由于指数曲线y=aebx进行线性变换后得到的经验回归方程为u=1-x,则u=ln y ,ln a=1,b=-1,即a=e,∴二次函数y=x2+bx+a即y=x2-x+e,抛物线开口向上,对称轴为直线x= ,则函数y=x2+bx+a的单调递增区间为(,+∞).
12.某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.
x
1
2
3
4
5
6
y
0.5
1
1.5
3
6
12
z=ln y
-0.7
0
0.4
1.1
1.8
2.5
(1)该公司科研团队通过分析散点图的特征,计划分别用①y=bx+a和②y=edx+c两种模型作为年销售量y关于年投资额x的回归模型,请根据统计表的数据,确定方案①和②的经验回归方程(注:系数b,a,d,c按四舍五入保留一位小数);
(2)根据下表中数据,用决定系数R2(不必计算,只比较大小)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少?
经验回归方程
=x+
=
(yi-)2
18.29
10.06
参考公式及数据:==,=-,
R2=1-=1-,xizi≈28.9,e3.4≈30.
解:(1)由题可得=×(1+2+3+4+5+6)=3.5,
=×(0.5+1+1.5+3+6+12)=4,
xiyi=1×0.5+2×1+3×1.5+4×3+5×6+6×12=121,=1+4+9+16+25+36=91,
所以==≈≈2.1,
=-=4-×3.5=-3.4,
方案①的经验回归方程为=2.1x-3.4.
对=两边取对数得ln =x+,
令=ln ,则=x+.
=×(-0.7+0+0.4+1.1+1.8+2.5)=0.85,
=≈=≈0.6,=-≈0.85-×3.5=-1.36≈-1.4,
方案②的非线性经验回归方程为=e0.6x-1.4.
(2)方案①的决定系数=1-;
方案②的决定系数=1-,
则<,
故模型②的拟合效果更好,精度更高.
预测当研发年投资额为8百万元时,产品的年销售量为=e4.8-1.4=e3.4≈30(千件).
1 / 2
学科网(北京)股份有限公司
$