内容正文:
第9章 统计
9.1.2 线性回归方程
【课标要求】
1.了解随机误差、残差,并能分析判断线性回归模型的拟合效果.
2.结合实例,根据散点图,判断两个变量是否具有相关关系.
3.了解最小二乘法原理,会求线性回归方程,并能根据线性回归方程进行预测.
要点深化·核心知识提炼
知识点一 线性回归问题
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x完全确定,将x,y之间的关系表示为y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.
y=a+bx+ε称为线性回归模型.
2.随机误差产生的主要原因
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
3.回归直线和线性回归方程
直线x称为回归直线,此直线方程即为线性回归方程.
其中称为回归截距,称为回归系数,称为回归值.
(1)a,b的估计值为,则
.
(2)线性回归方程x+必经过样本点的中心().
知识点二 回归模型的拟合效果分析
1.残差的概念
一般地,我们将观测值与对应的估计值之差称为残差.残差是随机误差ε的估计结果.
2.残差分析法
(1)作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图.
(2)残差分析:①通过残差图分析.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,线性回归方程的预报精度越高.②用残差平方和Q=(yi-)2分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
3.决定系数(R2)法
R2=1-(其中yi).R2的值越趋近于1,模型的拟合效果越好.
知识点三 非线性回归问题
解非线性回归分析问题的一般步骤
有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据画出散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,然后用适当的变量进行变换,把问题转化为线性回归分析问题,使之得到解决.
一般步骤为
名师点睛
由于涉及的数据比较多,考虑可操作性,相关题目往往会给出散点图,或将画散点图这一步骤省略,只需要选一些数据,画一下草图,作出判断即可,并且相关数据都会直接给出.
自主诊断
判断正误.(正确的画√,错误的画×)
(1)利用线性回归方程求得的函数值是真实值.( )
(2)残差yi-是相对于样本点(xi,yi)的随机误差yi-=yi-(xi+).( )
(3)线性回归方程一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点.
( )
(4)如果变量x与y的n对成对数据(xi,yi)(i=1,2,3,…,n)给定,那么y关于x的回归直线就唯一确定了.( )
×
√
×
√
题型分析·能力素养提升
【题型一】回归直线方程的意义
例 1 (1)在线性回归方程y=a+bx中,b为回归系数,下列关于b的说法中不正确的是( )
A.b为回归直线的斜率
B.b>0,表示随着x的增加,y值增加,b<0,表示随着x的增加,y值减少
C.b是唯一确定的值
D.回归系数b的统计意义是当x每增加(或减少)一个单位,y平均改变b个单位
C
解析 对于A,线性回归方程y=a+bx中的b为回归直线的斜率,A正确;对于B,b>0,表示随着x的增加,y值增加,b<0,表示随着x的增加,y值减少,B正确;对于C,b是由总体的一个样本利用一定的方法计算得到的,选择不同的样本或不同的计算方法得到的b一般是不同的,C错误;对于D,回归系数b的统计意义是当x每增加(或减少)一个单位,y平均改变b个单位,D正确.故选C.
(2)已知关于x和y的一组数据如表所示.
x 1 m 3 4 5
y 0.5 0.6 n 1.3 1.4
根据表中数据得到的线性回归直线方程为=0.28x+0.16,则n-0.28m的值为 .
0.64
解析 ,由题意得()在=0.28x+0.16上,故×0.28+0.16=,
故n-0.28m=0.64.故答案为0.64.
题后反思 对于回归直线方程的意义,我们要准确理解回归直线方程的性质以及各参数的几何意义.回归直线一定过样本中心点(),y与x正相关的充要条件是>0;y与x负相关的充要条件是<0;当x增大一个单位时,y增大个单位,这就是回归系数的实际意义.
跟踪训练1相关变量的样本数据如下表:
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为=0.5x+2.3,下列说法正确的是( )
A.x增加1时,y一定增加2.3
B.变量x与y负相关
C.当y为6.3时,x一定是8
D.a=5.2
D
解析 根据回归直线方程y=0.5x+2.3知,x增加1时,估计y增加0.5,故A错误;由y=0.5x+2.3知,=0.5>0,故变量x与y正相关,故B错误;当y=6.3时, 0.5x+2.3=6.3,解得x=8,估计x的值应为8,故C错误;
又×(1+2+3+4+5+6+7)=4,×(2.9+3.3+3.6+4.4+4.8+a+5.9)=,代入回归直线方程中,则=0.5×4+2.3,解得a=5.2,故D正确.故选D.
【题型二】求线性回归方程
例 2 [链接教材例4]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)请根据上表数据画出散点图;
(2)请根据上表提供的数据,建立y关于x的线性回归方程.
(相关公式:)
解 (1)散点图如图.
(2)由(1)中散点图可推断出y与x线性相关.
因为xiyi=6×2+8×3+10×5+12×6=158,xi=36,
yi=16,=62+82+102+122=344,代入公式,求得回归系数
=0.7,=4-0.7×9=-2.3,所以线性回归方程为=0.7x-2.3.
规律方法 求线性回归方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出);
(2)作出散点图,确定x,y具有线性相关关系;
(3)计算xiyi;
(4)代入公式计算;
(5)写出线性回归方程x+.
跟踪训练2为缓解医疗用品的短缺,各医疗单位都加紧了医疗用品的生产.某医疗器械厂统计了口罩生产车间每名工人的生产速度,并将所得数据分成五组,绘制出如图所示的频率分布直方图.
(1)估计口罩生产车间工人生产速度的中位数(结果写成分数的形式);
(2)为了解该车间工人的生产速度是否与他们的工作年限有关,现从车间所有工人中随机调查了5名工人的生产速度以及他们的工龄(参加工作的年限),所得数据如下:
工龄x/年 4 6 8 10 12
生产速度y/(件/时) 42 57 62 62 67
根据上表数据求每名工人的生产速度y关于他的工龄x的线性回归方程
x+.
附:.
解 (1)由频率直方图可知,(0.006+0.016+0.026+a+0.016)×10=1,解得a=0.036.
∵0.06+0.16+0.26=0.48<0.5,0.06+0.16+0.26+0.36=0.84>0.5,∴中位数位于50~60之间.设中位数为m,则0.06+0.16+0.26+0.036(m-50)=0.5,解得m=.
(2)由题意得×(4+6+8+10+12)=8,×(42+57+62+62+67)=58,
=58-×8=36,
∴y关于x的线性回归方程为x+36.
【题型三】线性回归分析
例 3 某企业投资两个新型项目,投资新型项目A的投资额m(单位:万元)与纯利润n(单位:万元)的关系式为n=1.7m-0.5,投资新型项目B的投资额x(单位:万元)与纯利润y(单位:万元)的散点图如图所示.
(1)求y关于x的线性回归方程;
(2)若该企业有一笔资金Q(单位:万元)用于投资A,B两个项目中的一个,为了收益最大化,应如何设计投资方案?
附:回归直线x+的斜率和截距的最小二乘估计分别为
.
解 (1)由散点图可知,x取1,2,3,4,5时,y的值分别为2,3,5,7,8,
所以=3,=5,
=1.6,
则=5-1.6×3=0.2.
故y关于x的线性回归方程为=1.6x+0.2.
(2)因为投资新型项目A的投资额m(单位:万元)与纯利润n(单位:万元)的关系式为n=1.7m-0.5,所以若投资A项目,则该企业所得纯利润为
1.7×Q-0.5=(1.7Q-0.5)万元;因为y关于x的线性回归方程为=1.6x+0.2,
所以若投资B项目,则该企业所得纯利润的估计值为(1.6Q+0.2)万元.因为1.7Q-0.5-(1.6Q+0.2)=0.1Q-0.7,所以当Q<7时,投资B项目;当Q=7时,投资A或B项目;当Q>7时,投资A项目.
规律方法 线性回归分析问题的解题步骤
(1)利用公式,求出回归系数;
(2)利用线性回归直线过样本点的中心求系数;
(3)利用线性回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
跟踪训练3假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
已知=90,=140.78,xiyi=112.3,≈8.9,≈1.4.
(1)计算y与x之间的相关系数(精确到0.001),并求出线性回归方程;
(2)根据线性回归方程,预测假设使用年限为10年时,维修费用约是多少万元?
解 (1)由题知,xi=20,yi=25,xiyi=112.3,=140.78,=90,
根据相关系数r的计算公式,得
r=≈0.987.
又=1.23,
=5-1.23×4=0.08,
所以线性回归方程为=1.23x+0.08.
(2)由(1)中线性回归方程可知,当x=10时,=1.23×10+0.08=12.38(万元),
即假设使用10年时,维修费用约为12.38万元.
【题型四】残差与回归模型的拟合效果分析
例 4 (1)某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y关于x的线性回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为( )
A.10万元 B.14万元 C.23万元 D.24万元
A
解析 当x=5时,销售额的预测值为=5×6.5+17.5=50,残差为60-50=10万元.故选A.
(2)下列说法正确的是( )
A.残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高
B.样本相关系数r越大,成对样本数据的线性相关性越强;反之,线性相关性越弱
C.回归直线就是散点图中经过样本数据点最多的那条直线
D.甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型甲的拟合效果更好
D
解析 对于A,残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,故A错误;对于B,样本相关系数r的绝对值越大,成对样本数据的线性相关性越强,反之,线性相关性越弱,故B错误;对于C,回归直线就是散点图中,从整体上看大致在一条直线的附近的那条直线,并不是经过数据点最多的直线,故C错误;对于D,决定系数R2越大,则拟合效果越好,由于0.88>0.80,则模型甲的拟合效果更好,故D正确.故选D.
规律方法 1.由样本点的横坐标和回归直线方程得出y的估计值,根据残差的定义计算残差.
2.评价回归模型的拟合效果有三种方法:残差图、残差平方和、决定系数.
跟踪训练4(1)某新能源汽车生产公司,为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:
x 20 23 25 27 30
y 2 2.4 3 3 4.6
由表格中的数据可以得到y与x的线性回归方程为x+a,据此计算,下列选项中残差的绝对值最小的样本数据是( )
A.(30,4.6) B.(27,3)
C.(25,3) D.(23,2.4)
C
解析 由表格数据知=25,=3,
∴a==3-=-,
∴线性回归方程为x-.
对于A,残差的绝对值为=0.35;
对于B,残差的绝对值为=0.5;
对于C,残差的绝对值为=0;
对于D,残差的绝对值为=0.1.
∴残差绝对值最小的样本数据是(25,3).故选C.
(2)下列说法错误的是( )
A.决定系数R2越大,模型的拟合效果越好
B.若变量x和y之间的样本相关系数r=-0.999,则变量x和y之间的负相关很强
C.残差平方和越小的模型,拟合的效果越好
D.在线性回归方程=-2x+0.8中,当解释变量x每增加1个单位时,响应变量平均增加2个单位
D
解析 对于A,决定系数R2越大,模型的拟合效果越好,故A正确;对于B,若变量x和y之间的样本相关系数r=-0.999,则变量x和y之间的负相关很强,故B正确;对于C,残差平方和越小的模型,拟合的效果越好,故C正确;对于D,在线性回归方程=-2x+0.8中,当解释变量x每增加1个单位时,响应变量平均减少2个单位,故D错误.故选D.
【题型五】非线性回归分析
例 5 某公司近5年产品研发年投资额x(单位:百万元)与年销售量y(单位:千件)的数据统计表如下:
年投资额x 1 2 3 4 5
年销售量y 0.5 1 1.5 3 5.5
(1)根据上表数据作出年投资额x与年销售量y的散点图;
(2)该公司计划用非线性回归方程作为年销售量y关于年投资额x的回归分析模型,并对年销售量取对数,得到如下数据表:
年销售量y 0.5 1 1.5 3 5.5
z=ln y -0.7 0 0.4 1.1 1.7
请根据表格数据和公式,求出该非线性回归方程.
解 (1)散点图如图.
(2)由得ln x+,
由于令=ln ,即x+,由已知得=0.5,
=3,则=0.59,-b=0.5-0.59×3=-1.27,
所以=ln =0.59x-1.27,即=e0.59x-1.27,故年销售量y关于年投资额x的非线性回归方程为=e0.59x-1.27.
规律方法 非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象如图所示.
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b的值.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象如图所示.
②处理方法:设x'=ln x,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b的值.
(3)y=bx2+a型
处理方法:设x'=x2,原方程可化为y=bx'+a,再根据线性回归模型的方法求出a,b的值.
(4)幂函数型y=axn
处理方法:两边取常用对数,lg y=lg(axn),即lg y=nlg x+lg a,
令原方程可化为y'=nx'+lg a,然后根据线性回归模型的方法求出n,lg a.
(5)反比例函数型y=a+
处理方法:令原方程可化为y'=bx'+a,然后根据线性回归模型的方法求出b,a.
跟踪训练5某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(单位:元)与生产该产品的数量x(单位:千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7 8
y 112 61 44.5 35 30.5 28 25 24
根据以上数据,绘制了
如下散点图.
观察散点图,两个变量之间不具有线性相关关系,现考虑用反比例函数模型y=a+和指数函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为=96.54e-0.2x,ln y与x的相关系数r1=-0.94.
参考数据(其中ui=):
uiyi ui yi e-2
183.4 2.72 1.53 360 22 385.5 489.47 0.135
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本.
参考公式:,相关系数
r=.
解 (1)令u=,则y=a+可转化为y=a+bu,因为=45,
所以≈101,
则=45-101×0.34≈11,所以=11+101u,
所以y关于x的回归方程为=11+.
(2)y与的相关系数为
r2=
=≈0.997.
因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,由(1)中线性回归方程可知,当x=10时,+11=21.1(元),所以当产量为10千件时,每件产品的非原料成本为21.1元.
$