内容正文:
8.2 一元线性回归模型及其应用
课程标准
素养解读
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
2.针对实际问题,会用一元线性回归模型进行预测.
1.通过一元线性回归模型的分析,培养数学抽象,逻辑推理素养.
2.通过求经验回归方程、残差和决定系数,提升数学运算,数据分析素养.
[情境引入]
如果刑警在案发现场提取到罪犯的脚印,那将获得一条重要的破案线索,你能说明一下其中的原因吗?
[知识梳理]
[知识点一] 一元线性回归模型
一元线性回归模型的完整表达式为
其中Y称为 因变量 或 响应变量 ,x称为自变量或 解释 变量;a,b为模型的未知参数,e是Y与bx+a之间的 随机误差 .
1.具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数y=bx+a来描述这两个变量之间的关系吗?
提示:不能
[知识点二] 最小二乘法与经验回归方程
1.最小二乘法
=x+称为y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
2.经验回归方程的系数计算公式
经验回
归方程
的计算公式
的计
算公式
= x+
=-
3.经验回归方程的性质
(1)经验回归方程一定过点(,);
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是 >0 ;
(3)的实际意义:当x增大一个单位时, 增大 个单位.
2.经验回归方程=+x中的实际意义是什么?
提示:表示x每增加1个单位时,的变化量,即x每增加1个单位时,相应地平均增加个单位.
3.y与x正负相关的充要条件分别是什么?
提示:当>0时,y与x正相关,反之也成立,同理<0是y与x负相关的充要条件.
[知识点三] 残差
1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.决定系数:R2=1越接近1,表示回归的效果越好.
[预习自测]
1.判断正误(正确的打“√”,错误的打“×”).
(1)经验回归方程一定过样本中的某一个点.( )
(2)选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程是同一个方程.( )
(3)在经验回归模型中,R2越接近于1,表示解释变量和响应变量的线性相关性越强.( )
(4)在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴上.( )
提示:(1)× 经验回归方程一定过点(,),可能过样本点中的某个或某些点,也可能不过样本中的任意一个点.
(2)× 选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程不一定是同一个方程.
(3)√
(4)× 在画两个变量的散点图时,解释变量在x轴上,响应变量在y轴上.
2.若某地财政收入x与支出y满足经验回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|e1|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
解析:C [=0.8×10+2+ei=10+ei,
因为|ei|<0.5,所以9.5<<10.5]
3.若施肥量x(kg)与水稻产量y(kg)的经验回归方程为=5x+250,当施肥量为80 kg时,预计水稻产量约为 ________ kg.
解析:把x=80代入经验回归方程可得其预测值=5×80+250=650(kg).
答案:650
求经验回归方程
[例1] 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x之间的一组观察值如下表.
x(s)
5
10
15
20
30
40
50
60
70
90
120
y(μm)
6
10
10
13
16
17
19
23
25
29
46
(1)画出散点图;
(2)求y与x之间的经验回归方程;
(3)利用经验回归方程预测时间为100 s时腐蚀深度为多少.
[思路点拨] 根据求经验回归方程的方法求解.
解:(1)散点图如图所示.
(2)从散点图中,我们可以看出y与x的样本点分布在一条直线附近,因而求经验回归直线方程有意义.
=×(5+10+15+…+120)=,
=×(6+10+10+…+46)=,
xiyi=5×6+10×10+15×10+…+120×46=13 910,
x=52+102+152+…+1202=36 750,
≈0.304.
=-=-0.304×=5.36.
故腐蚀深度与腐蚀时间之间的经验回归方程为=0.304x+5.36.
(3)根据(2)中求得的经验回归方程,当腐蚀时间为100 s时,=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s时腐蚀深度为35.76 μm.
1.求经验回归方程前应注意的问题
对于性质不明确的两组数据,要先作散点图,从图中看它们有无线性相关关系,有相关关系的求出的经验回归方程才有实际意义.
2.求经验回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n).
(2)作出散点图,确定x,y具有线性相关关系.
(3)计算,,x,xiyi.
(4)代入公式计算,,
(5)写出经验回归方程=x+.
[变式训练]
1.下表是某种产品销售收入与销售量之间的一组数据:
销售量x(吨)
2
3
5
6
销售收入y(万元)
7
8
9
12
(1)画出散点图;
(2)求出经验回归方程;
(3)根据经验回归方程估计销售量为9吨时的销售收入.
解:(1)在坐标系中描出点(2,7),(3,8),(5,9),(6,12),散点图如图.
(2)==4,==9,
xiyi=14+24+45+72=155,
x=4+9+25+36=74,
∴==1.1,=9-1.1×4=4.6,
∴要求的经验回归方程为=1.1x+4.6.
(3)当x=9时,=1.1×9+4.6=14.5.
故当销售为9吨时,估计销售收入为14.5万元.
经验回归方程的性质及应用
[例2] (多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中正确的是( )
A.y与x具有线性相关关系,且二者正相关
B.回归直线过样本点中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
[思路点拨] 根据经验回归直线方程的性质逐一判断.
解析:ABC [当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79 kg,故D错误,ABC均正确.]
1.相关关系的正、负相关类同于函数的增、减性,与其斜率有关,必要时可画散点图以增强直观性.
2.由经验回归方程得出的函数值不一定是准确值,只是个估计值.
[变式训练]
2.(1)工人月工资y(单位:元)关于劳动生产率x(单位:千元)的经验回归方程为=650+80x,下列说法中正确的个数是( )
①劳动生产率为1 000元时,工资约为730元;
②劳动生产率提高1 000元,则工资约提高80元;
③劳动生产率提高1 000元,则工资约提高730元;
④当月工资为810元时,劳动生产率约为2 000元.
A.1 B.2
C.3 D.4
解析:C [代入方程计算可判断①②④正确.]
(2)已知x,y的取值如下表:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若从散点图可以看出y与x线性相关,且经验回归方程为=0.95x+,则等于( )
A.3.25 B.2.6
C.2.2 D.0
解析:B [∵点(,)在回归直线上,
计算得==2,
==4.5,
∴4.5=0.95×2+,∴=2.6.]
线性检验回归分析
[例3] 某运动员训练次数与训练成绩之间的数据关系如表:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出经验回归方程;
(3)作出残差图;
(4)计算R2,并说明运动员的训练次数对成绩的影响占百分之几.
[思路点拨] 依据概念先求经验回归方程,再依据公式求决定系数R2.
解:(1)作出该运动员训练次数x与成绩Y的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(2)=39.25,=40.875,x=12 656,
xiyi=13 180,
所以=≈1.041 5,
=-=-0.003 875,
所以经验回归方程为=1.041 5x-0.003 875.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
x
y
30
30
-1.241 1
33
34
-0.365 6
35
37
0.551 4
37
39
0.468 4
39
42
1.385 4
44
46
0.177 9
46
48
0.094 9
50
51
-1.071 1
作残差图如图所示.
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.
(4)计算R2≈0.985 5,说明了该运动员的训练次数对成绩的影响占98.55%.
“R2、残差图”在回归分析中的作用
1.R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
2.残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
[变式训练]
3.为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求经验回归方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
解:(1)散点图如图.
=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)
≈9.487,计算得≈0.183,≈6.285.
故所求经验回归方程为=6.285+0.183x.
(2)列出残差表为
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.237
-1.367
-0.537
0.413
1.413
2.313
所以 (yi-i)2≈0.013 18, (yi-)2=14.678 3.
所以R2=1-≈0.999 1,回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个样本点的时候是否有人为的错误,如果有的话,需要纠正,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
非线性经验回归问题
[例4] 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
x
46.6
y
563
w
6.8
(xi-x)2
289.8
(wi-w)2
1.6
(xi-x)(yi-y)
1 469
(wi-w)(yi-y)
108.8
表中wi=,=.
(1)根据散点图判断:=+x与=+哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x、y的关系为=0.2y-x.根据(2)的结果回答下列问题;
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为:
==-.
[思路点拨]
→→
解:(1)由散点图可以判断,=+适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性经验回归方程.由于
563-68×6.8=100.6,
所以y关于w的线性经验回归方程为=100.6+68w,因此y关于x的经验回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值=0.2×(100.6+68)-x=-x+13.6×+20.12.所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.
1.非线性回归问题的处理方法
(1)指数型函数y=ebx+a类
①函数y=ebx+a的图象,如图1.
图1
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据求解线性回归模型的方法求出a,b.
(2)对数型函数y=bln x+a类
①函数y=bln x+a的图象,如图2.
图2
②处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据求解线性回归模型的方法求出a,b.
(3)函数y=bx2+a类
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据求解线性回归模型的方法求出a,b.
2.解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
一般步骤为:
说明:由于涉及的数据比较多,考虑到可操作性,考试时往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
[变式训练]
4.某工厂每日生产一种产品x(x≥1)吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨)
1
2
3
4
5
日销售额
Y(万元)
5
12
16
19
21
(1)请判断=x+与=ln x+中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参数公式:经验回归方程=x+中,
==-.
解:(1)=ln x+更适合刻画x,y之间的关系.理由:由题表中的数据可知,x的值每增加1,函数值y的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故=ln x+更适合刻画x,y之间的关系.
(2)令z=ln x,由题意得===14.6,所以==10,=-·≈14.6-10×0.96=5,所以y关于x的回归方程为=10ln x+5.
当x=6时,日销售额为10ln 6+5≈23(万元).
[当堂达标]
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其经验回归方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
解析:A [因为y与x负相关,所以排除B,D,又因为C项中,x>0时,y<0不合题意,所以C错.]
2.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
解析:C [残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大.]
3.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到散点图如图所示.
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解析:D [由散点图可以看出,随着温度x的增加,发芽率y增加到一定程度后,变化率越来越慢,符合对数型函数的图象特征.]
4.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,发现y与x有相关关系,并得到经验回归方程=0.66x+1.562.若该地区的人均消费水平为7.675千元,则估计该地区的人均消费额占人均工资收入的百分比约为 ________ .(精确到0.1%)
解析:当y=7.675时,x≈9.262,
所以该地区的人均消费额占人均工资收入的百分比约为×100%≈82.9%.
答案:82.9%
5.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的经验回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解:(1)由题设所给数据,可得散点图如图.
(2)由对照数据,计算得:x=86,
==4.5,==3.5,
已知xiyi=66.5,
所以,由最小二乘法确定的经验回归方程的系数为
===0.7.
=-=3.5-0.7×4.5=0.35.
因此,所求的经验回归方程为=0.7x+0.35.
(3)由(2)的经验回归方程及技改前生产100吨甲产品的生产能耗得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
1.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
若y与x线性相关,则y与x的经验回归直线=x+必过点( )
A.(2,2) B.(1.5,0)
C.(1,2) D.(1.5,4)
解析:D [∵==1.5,
==4,
∴回归直线必过点(1.5,4).故选D.]
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好( )
A.甲 B.乙
C.丙 D.丁
解析:A [决定系数R2越大,表示回归模型的拟合效果越好.]
3.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表,根据下表可得回归方程=x+中的=10.6,据此模型预报广告费用为10万元时,销售额约为 ________ 万元.( )
广告费用
x(万元)
4
3
2
5
销售额
y(万元)
49
26
39
58
A.112.1万元 B.113.1万元
C.111.9万元 D.113.9万元
解析:C [把样本中心点的坐标代入回归方程得=5.9,所以广告费用为10万元时,估计销售额约为10.6×10+5.9=111.9(万元).]
4.已知由样本数据(xi,yi)(i=1,2,3,…,8)组成的一个样本,得到经验回归方程为=2x+0.75,且=1.125,增加两个样本点(-2,5)和(1,3)后,得到新样本的经验回归方程为=3x+.在新的经验回归方程下,样本(3,8.7)的残差为( )
A.1.1 B.0.5
C.-0.5 D.-1.1
解析:D [∵xi=1.125×8=9,∴增加两个样本点后x的平均数为=0.8;
∵=2×1.125+0.75=3,∴yi=3×8=24,∴增加两个样本点后y的平均数为=3.2,∴3.2=3×0.8+,解得:=0.8,∴新的经验回归方程为:=3x+0.8,
则当x=3时,=9.8,∴样本(3,8.7)的残差为8.7-9.8=-1.1.]
5.在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是( )
A.y=a+bx
B.y=c+d
C.y=m+nx2
D.y=p+qcx(q>0)
解析:B [散点图呈曲线,排除A选项,且增长速度变慢,排除选项C,D,故选B.]
6.(多选)为研究需要,统计了两个变量x,y的数据情况如下表:
x
x1
x2
x3
…
xn
y
y1
y2
y3
…
yn
其中数据x1,x2,x3,…,xn和数据y1,y2,y3,…,yn的平均数分别为和,并且计算相关系数r=-0.8,回归方程为=x+,如下结论正确的为( )
A.将以上数据的每个数据都加一个相同的常数后,方差不变
B.变量x,y的相关性强
C.当x=x1时,必有=y1
D.<0
解析:ABD [A.因为方差是表示数据波动大小的量,将一组数据的每个数都加一个相同的常数后,方差不变,所以A正确;B.相关系数r=-0.8,|r|>0.75,变量x,y的相关性强,所以B正确;C.当x=x1时,不一定有=y1,因此C错误;D.因为r=-0.8<0,是负相关,所以<0,故D正确.]
7.预制菜指以农、畜、禽、水产品为原辅料,配以调味料等经预选、调制等工艺加工而成的半成品.近几年预制菜市场快速增长.某城市调查近4个月的预制菜市场规模y(万元)得到如表所示的数据,根据数据得到y关于x的非线性回归方程=e-a
x
1
2
3
4
y
e3
e4
e5
e6
按照这样的速度,预估第8个月的预制菜市场规模是 ______ 万元.(结果用e表示)
解析:令z=ln =-a,则==,==,所以=-a⇒a=-4,则z=ln=+4,所以x=8代入回归方程,则z=ln=,可得=e万元.
答案:e
8.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令z=lny,求得经验回归方程为z=0.25x-2.58,则该模型的回归方程为 __________________ .
解析:因为z=0.25x-2.58,z=lny,
所以y=e0.25x-2.58.
答案:y=e0.25x-2.58
9.已知n组成对样本数据确定的经验回归方程为=-x+2且=4,通过残差分析,发现两组成对样本数据(-1.7,2.9),(-2.3,5.1)误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为-1.5,则当x=-4时,= ________ .
解析:由样本数据点集{(xi,yi)|i=1,2,…,n}求得的经验回归方程为=-x+2,且=4,所以=-2,故数据的样本中心点为(-2,4),
去掉(-1.7,2.9),(-2.3,5.1),
重新求得的经验回归直线的斜率估计值为-1.5,
经验回归方程设为=-1.5x+,代入(-2,4),
求得=1,所以经验回归直线的方程为:y=-1.5x+1,将x=-4代入经验回归方程,求得y的估计值为-1.5×(-4)+1=7.
答案:7
10.已知变量x,y有如下对应数据.
x
1
2
3
4
Y
1
3
4
5
(1)作出散点图;
(2)用最小二乘法求关于x,y的经验回归方程.
解:(1)散点图如图所示.
(2)==,==,
xiyi=1+6+12+20=39,
x=1+4+9+16=30,
==,
=-×=0,
所以=x即为所求的经验回归方程.
11.在一段时间内,某淘宝网店一种商品的销售价格x(元)和日销售量Y(件)之间的一组数据为:
价格
x(元)
22
20
18
16
14
日销售
量y(件)
37
41
43
50
56
求出y关于x的经验回归方程,并说明该方程拟合效果的好坏.
参考数据:
解:作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4,
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以经验回归方程为=-2.35x+87.7.
yi-i与yi-的值如下表:
yi-i
1
0.3
-2.4
-0.1
1.2
yi-
-8.4
-4.4
-2.4
4.6
10.6
计算 (yi-i)2=8.3, (yi-)2=229.2,所以R2=1-≈0.964.
因为0.964很接近于1,
所以该模型的拟合效果比较好.
[能力提升]
12.某公司的生产部门调研发现,该公司第二、第三季度的月用电量y与月份x线性相关,且数据统计如下:
月份
4
5
6
7
8
9
月用电量
(千瓦时)
6
16
27
55
46
56
但核对电费报表时发现一组数据统计有误.
(1)请指出哪组数据有误,并说明理由;
(2)在排除有误数据后,求月用电量与月份之间的经验回归方程=x+,并预测统计有误的那个月份的用电量.(结果精确到0.1)
解:(1)作散点图如图所示.因为用电量与月份之间线性相关,所以散点图的样本点分布在经验回归直线附近比较窄的带状区域内,而点(7,55)离其他点所在区域较远,故(7,55)这组数据有误.
(2)排除(7,55)这一组有误数据后,计算得=6.4,=30.2.
因为
=-≈-33.67,
所以经验回归方程为=9.98x-33.67,
当x=7时,≈36.2,
即7月份的用电量大约为36.2千瓦时.
13.为了研究某种细菌随时间x的变化繁殖个数Y的变化,收集数据如下:
时间
x/天
1
2
3
4
5
6
繁殖个
数Y
6
12
25
49
95
190
(1)将天数做解释变量,繁殖个数做相应变量,作出这些数据的散点图;
(2)描述解释变量与响应变量之间的关系.
解:(1)由表中数据作散点图如图所示.
(2)由散点图看出样本点分布在一条指数函数y=c1ec2x的图象的周围,其中c1和c2是待定系数.于是令Z=1n Y,则=x+(=1n c1,=c2),因此变换后的样本点应该分布在直线=x+的周围,因此可以用经验回归模型来拟合Z与x的关系,则变换后的样本数据如表:
x
1
2
3
4
5
6
Z
1.79
2.48
3.22
3.89
4.55
5.25
由表中数据得到经验回归方程=0.69x+1.115.因此细菌繁殖个数关于时间的非线性经验回归方程为=e0.69x+1.115.
[素养培优]
14.近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如表所示:
年份x
2019
2020
2021
2022
2023
新能源汽车购买
数量y(万辆)
0.40
0.70
1.10
1.50
1.80
(1)计算y与x的相关系数r(保留三位小数);
(2)求y关于x的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式r=
参考数值:≈3.605 6, (xi-)(yi-)=3.6.
解析:(1)==2 021,==1.10, (xi-)2=(-2)2+(-1)2+02+12+22=10, (y1-)2=(-0.7)2+(-0.4)2+02+0.42+0.72=1.3所以r==≈≈0.998;
(1) 由(1)知,
(2) =-=1.1-2 021×0.36=-726.46,
所以y关于x的线性回归方程是=0.36x-726.46,当x=2 025时,=0.36×2 025-726.46=2.54(万辆),该地区2025年新能源汽车购买数量约为2.54万辆.
学科网(北京)股份有限公司
$