内容正文:
8.2 一元线性回归模型及其应用
课时2 一元线性回归模型及其应用
【学习目标】
1.了解随机误差、残差、残差图的概念.(数学抽象)
2.会通过分析残差判断一元线性回归模型的拟合效果.(数据分析、数学运算)
3.了解常见的非线性回归模型转化为一元线性回归模型的方法.(数学运算、数据分析、数学建模)
【自主预习】
1.什么是残差?
2.如何比较两个模型的拟合效果?
3.R2的计算公式是什么?
4.什么是非线性经验回归方程?
5.如何猜测非线性经验回归方程的类型?
1.判断下列结论是否正确.(正确的打“√”,错误的打“×”)
(1)在残差图中,纵坐标为残差,横坐标可以为样本编号. ( )
(2)残差平方和越小,回归模型的拟合效果越好. ( )
(3)R2越小,回归模型的拟合效果越好. ( )
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同的模型,计算它们的决定系数R2,得到下表.
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
建立的回归模型拟合效果最好的是( ).
A.甲 B.乙 C.丙 D.丁
3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( ).
A B
C D
4.某学校开展研究性学习活动,一组同学获得了如表所示的一组试验数据.
x
1.99
3
4
5.1
8
y
0.99
1.58
2.01
2.35
3.00
现有如下5个模拟函数:
①y=0.58x-0.16;②y=2x-3.02;③y=x2-5.5x+8;④y=log2x;⑤y=x+1.74.
请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 .(填序号)
【合作探究】
残差
小明:还有什么方法能刻画回归效果呢?
小明同桌:作残差图.
问题1:如何作残差图?
问题2:怎样利用残差说明模型的拟合效果?
1.观测值
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值.
2.残差
观测值减去预测值所得的差称为残差.
3.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.残差的应用
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
随着生活水平的逐步提高,人们对文娱活动的需求与日俱增,其中观看电视就是一种老少皆宜的娱乐活动.但是我们在观看电视娱乐身心的同时,也要注意把握好观看时长.近期研究显示,一项久坐的生活指标——看电视时长,是导致视力下降的重要因素,即看电视的时间越长,视力下降的风险越大.研究者在某小区统计的每天看电视时长x(单位:小时)与视力下降人数y的相关数据如下:
编号
1
2
3
4
5
x
1
1.5
2
2.5
3
y
12
16
22
24
26
(1)请根据上面的数据求y关于x的经验回归方程.
(2)我们用第(1)问求出的经验回归方程=x+中的估计bx+a,因为随机误差e=y-(bx+a),所以=y-是e的估计值,称为点(xi,yi)的残差.
①填写下面的残差表,并绘制残差图;
编号
1
2
3
4
5
x
1
1.5
2
2.5
3
y
12
16
22
24
26
②若残差图所在带状区域宽度不超过4,则我们认为该模型拟合精度比较高,经验回归方程的预报精度较高,试根据①中绘制的残差图分析该模型拟合精度是否比较高.
附:经验回归方程=x+中==,=-.
【方法总结】作残差分析时,一般从以下几个方面予以说明:(1)散点图;(2)决定系数;(3)残差图中的异常点和残差点所在的水平带状分布区域的宽窄.
两个线性相关变量x与y的统计数据如表所示:
x
9
9.5
10
10.5
11
y
11
10
8
6
5
其经验回归方程是=x+40,则相对应于点(11,5)的残差为( ).
A.0.1 B.0.4 C.0.3 D.0.2
R2的计算和非线性经验回归方程
变量y关于x的非线性经验回归方程为=,其一组数据如表所示:
x
1
2
3
4
y
e
e3
e4
e6
问题1:如何求非线性经验回归方程=中的?
问题2:你能写出解题过程吗?
问题3:上述问题中,若x=5,则预测y的值可能为多少?
1.R2的计算公式为R2=1-.
2.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出y与x的散点图,并猜测y与x之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差(精确到小数点后3位);
(3)利用所得模型,预测当x=40时,y的值.
附:经验回归方程=x+中==,=-.
【方法总结】非线性回归问题的处理方法
(1)指数函数模型y=,其图象如图所示.
处理方法:两边取自然对数得ln y=ln ,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数模型y=bln x+a,其图象如图所示.
处理方法:设x'=ln x,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b.
(3)二次函数模型y=bx2+a
处理方法:设x'=x2,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b.
某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度x(单位:mol/L)与灭死率y的数据,得下表:
浓度x/(mol/L)
10-12
10-10
10-8
10-6
10-4
灭死率y
0.1
0.24
0.46
0.76
0.94
(1)以x为解释变量,y为响应变量,在=x+和=c1+c2lg x中选一个作为灭死率y关于浓度x(单位:mol/L)的经验回归方程,不用说明理由.
(2)①根据(1)的选择结果及表中数据,求出所选经验回归方程.
②依据①中所求的经验回归方程,要使灭死率不低于0.8,估计该灭草剂的浓度至少要达到多少.
参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程=x+中==,=-.
【随堂检测】
1.(2020年全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)之间的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( ).
A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+bln x
2.下列有关线性回归的说法,不正确的是( ).
A.当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系
B.在平面直角坐标系中用描点的方法得到的两个变量的一组数据的图形叫作散点图
C.经验回归方程最能代表观测值x,y之间的线性关系
D.任何一组观测值都能得到具有代表意义的经验回归方程
3.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3e2x+1的图象附近,令u=ln y,则可通过转换得到经验回归方程为 .
4.某个服装店经营某种服装,某周内获得的纯利润y(单位:元)与该周每天销售这种服装件数x(单位:件)之间的一组数据如表所示:
x/件
3
4
5
6
7
8
9
y/元
66
69
73
81
89
90
91
已知=280,=45 309,xiyi=3 487.
(1)求,的值(精确到小数点后两位);
(2)已知纯利润y与每天销售件数x之间线性相关,求出y关于x的经验回归方程(精确到小数点后两位);
(3)求残差平方和、决定系数(精确到小数点后四位).
参考答案
课时2 一元线性回归模型及其应用
自主预习·悟新知
预学忆思
1.观测值减去预测值所得的差称为残差.
2.可以通过残差平方和比较,残差平方和越小,拟合效果越好,也可以用R2来比较,R2越大,表示残差平方和越小,即模型的拟合效果越好.
3.R2=1-.
4.如果具有相关关系的两个变量x,y不是线性相关关系,那么称它们有非线性相关关系,所得到的方程称为非线性经验回归方程.
5.可以通过作出散点图,结合已学的函数模型进行猜测.
自学检测
1.(1)√ (2)√ (3)×
2.A 【解析】决定系数R2越大,表示回归模型的拟合效果越好.
3.A 【解析】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
4.④ 【解析】画出散点图,如图所示.
由图可知,上述点大致在函数y=log2x的图象上,故y=log2x可以近似地反映这些数据的规律,故填④.
合作探究·提素养
探究1 情境设置
问题1:纵坐标为残差,横坐标可以为样本编号或身高数据或体重的估计值等,这样作出的图形就是残差图了.
问题2:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
新知运用
例1 【解析】(1)==2,==20,xiyi=218,=22.5,
则==7.2,=20-7.2×2=5.6,
故y关于x的经验回归方程为=7.2x+5.6.
(2)①残差表:
编号
1
2
3
4
5
x
1
1.5
2
2.5
3
y
12
16
22
24
26
-0.8
-0.4
2
0.4
-1.2
残差图:
②残差图所在带状区域的宽度为2-(-1.2)=3.2.因为3.2<4,所以我们认为该模型拟合精度比较高.
巩固训练 D 【解析】由题意得==10,==8,则样本点的中心为(10,8).
因为经验回归方程为=x+40,所以8=10+40,解得=-3.2,所以=-3.2x+40,
当x=11时,=4.8,则相对应于点(11,5)的残差为5-4.8=0.2.
探究2 情境设置
问题1:将式子两边取自然对数,得到ln =x-0.5,令=ln ,则=x-0.5,根据题中所给的表格,列出x,z的取值对应的表格,求得,,利用经验回归直线过样本点的中心,列出等量关系式,求得.
问题2:由=,得ln =x-0.5,令=ln ,则=x-0.5.
x
1
2
3
4
z
1
3
4
6
==2.5,==3.5.
∵经验回归直线=x-0.5过点(,),
∴3.5=·2.5-0.5,解得=1.6.
问题3:由上可知=1.6x-0.5,∴=e1.6x-0.5,
当x=5时,=e1.6×5-0.5=.
新知运用
例2 【解析】(1)作出散点图,如图所示,从散点图可以看出y与x不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1的周围,其中c1,c2为待定的参数.
(2)对y=c1的两边取自然对数,把指数关系变为线性关系,令z=ln y,则变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用经验回归模型来建立y与x之间的非线性经验回归方程了,数据可以转化为
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
则≈27.429,≈3.612,xizi=733.741,=5 414,
∴=≈≈0.273,
=-≈3.612-0.273×27.429=-3.876,
求得经验回归方程为=0.273x-3.876,
∴=.
残差表如下:
y
7
11
21
24
66
115
325
6.404
11.056
19.087
32.950
56.883
129.024
292.657
0.596
-0.056
1.913
-8.950
9.117
-14.024
32.343
(3)当x=40时,=≈1 146.
巩固训练 【解析】(1)根据表格中数据可知解释变量x呈现指数增长,而响应变量y增长幅度不大,
故选=c1+c2lg x.
(2)①令u=lg x,则=+u,
所以可得如下数据:
u
-12
-10
-8
-6
-4
y
0.1
0.24
0.46
0.76
0.94
则=×(-12-10-8-6-4)=-8,=×(0.1+0.24+0.46+0.76+0.94)=0.5,
=(-12)2+(-10)2+(-8)2+(-6)2+(-4)2=360,
uiyi=(-12)×0.1+(-10)×0.24+(-8)×0.46+(-6)×0.76+(-4)×0.94=-15.6,
所以==0.11,=0.5-0.11×(-8)=1.38,
所以=1.38+0.11u,即=1.38+0.11lg x.
②依题意,=1.38+0.11lg x≥0.8,即0.11lg x≥-0.58,即lg x≥-,
所以x≥1,即要使灭死率不低于0.8,则估计该灭草剂的浓度至少要达到1 mol/L.
随堂检测·精评价
1.D 【解析】根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C.故选D.
2.D 【解析】只有当数据点整体上分布在一条直线附近时,才能得到具有代表意义的经验回归方程.
3.u=1+ln 3+2x 【解析】由y=3e2x+1,得ln y=ln(3e2x+1),
即ln y=ln 3+2x+1.令u=ln y,则经验回归方程为u=1+ln 3+2x.
4.【解析】(1)==6,
=≈79.86.
(2)因为y与x具有线性相关关系,所以可设经验回归方程为=x+,
则=≈4.75,≈79.86-6×4.75=51.36,
所以y关于x的经验回归方程为=4.75x+51.36.
(3)列出残差表:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
65.61
70.36
75.11
79.86
84.61
89.36
94.11
0.39
-1.36
-2.11
1.14
4.39
0.64
-3.11
所以残差的平方和为0.392+(-1.36)2+(-2.11)2+1.142+4.392+0.642+(-3.11)2=37.107 2,
决定系数R2=1-=1-≈0.944 3.
学科网(北京)股份有限公司
$$