内容正文:
成对数据的统计分析
第八章
8.2 一元线性回归模型及其应用
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
必备知识·基础落实
关键能力·素养提升
随堂检测·学以致用
课时作业·自测反思
必备知识·基础落实
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
要点一 一元线性回归模型
因变量
响应变量
解释
随机误差
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
要点二 最小二乘法与经验回归方程
经验回归方程
经验回
归函数
经验回归公式
经验回归直线
最小二乘法
最小二乘估计
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
要点三 残差
观测值
预测值
观测值
预测值
残差
返回目录
数学 选择性必修 第三册
纵坐标
均匀
越窄
越高
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
探究一 经验回归方程的求解
关键能力·素养提升
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
探究二 残差分析
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
探究三 非线性经验回归模型的应用
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
随堂检测·学以致用
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
返回目录
数学 选择性必修 第三册
课时作业·自测反思
返回目录
数学 选择性必修 第三册
制 作 者:状元桥
适用对象:高中学生
制作软件:Powerpoint2010、
Photoshop cs3
运行环境:WindowsXP以上操作系统
课标要求
1.结合具体实例,了解一元线性回归模型的含义.
2.了解模型参数的统计意义.
3.了解最小二乘原理.
4.掌握求一元线性回归模型参数的最小二乘估计方法.
5.理解残差分析的原理和方法.
6.针对实际问题,会用一元线性回归模型进行预测.
学法指导
1.会根据两个变量的样本点取值求经验回归方程,并会利用经验回归方程对总体进行估计和预测.
2.结合实例,会通过残差分析、决定系数比较变量之间的线性相关性强弱.
3.能够根据变量之间的相关性解决简单的实际问题,结合具体实例,掌握运用一元线性回归模型分析的方法.
4.通过将简单的幂型函数、指数型函数转化为线性函数的典型例子,体会非线性回归模型转化为线性回归模型的思想和方法.
5.通过对回归模型及其应用的学习,发展数学抽象、数学运算和数据分析的核心素养.
问题导入
某农场经过观测得到水稻产量和施化肥量的统计数据如表所示.
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330
345
365
405
445
450
455
问题1:你能利用散点图,判断它们是否有相关关系吗?
提示 能.
提示 不能,只能是近似值.
问题2:水稻产量会随着施化肥量的增加而一直增长吗?
提示 不会.
问题3:能用施化肥量准确预测水稻产量吗?
一元线性回归模型的完整表达式为eq \b\lc\{\rc\ (\a\vs4\al\co1(Y=bx+a+e,,Ee=0,De=σ2,))其中Y称为_________或____________,x称为自变量或______变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的____________.
微梳理
思考:具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数y=bx+a 来描述两个变量之间的关系吗?
提示 不可以.
1.最小二乘法
eq \o(y,\s\up14(^))=eq \o(b,\s\up14(^))x+eq \o(a,\s\up14(^))称为Y关于x的__________________,也称________ __________或________________,其图形称为_________________.这种求经验回归方程的方法叫做_______________,求得的eq \o(b,\s\up14(^)),eq \o(a,\s\up14(^))叫做b,a的__________________.
2.经验回归方程的系数计算公式
经验回归方程
的计算公式
的计算公式
=________
=________________=
=-
x+
3.经验回归方程的性质
(1)经验回归方程一定过点_________;
(2)一次函数=x+的单调性由的符号决定,函数递增的充要条件是______;
(3)方程中的实际意义:当x增大一个单位时,________个单位.
(,)
>0
增大
思考:正相关、负相关与的符号有何关系?
提示 Y与x正相关的充要条件是>0,Y与x负相关的充要条件是<0.
1.定义:对于响应变量Y,通过观测得到的数据称为_________,通过经验回归方程得到的eq \o(y,\s\up14(^))称为_________,_________减去_________称为______.
2.残差图
(1)作图时_________为残差,横坐标可以选为样本编号,或有关数据.
(2)残差点______地落在水平的带状区域中,说明选用的模型比较合适.带状区域的宽度______,模型拟合精度______,经验回归方程的预报精度越高.
3.决定系数:R2=1-,其中(yi-i)2为残差平方和.R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
判断正误,正确的画“√”,错误的画“×”.
(1)经验回归方程一定过样本中的某一个点.( )
(2)选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程是同一个方程.( )
(3)在经验回归模型中,R2越接近于1,表示解释变量和响应变量的线性相关性越强.( )
(4)在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴上.( )
解析 (1)错误.经验回归方程一定过点(,),可能过样本中的某个或某些点,也可能不过样本中的任意一个点.
(2)错误.选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程不一定是同一个方程.
(3)正确.R2越接近于1,模型的拟合效果越好,变量的相关性就越强.
(4)错误.在画两个变量的散点图时,解释变量在x轴上,响应变量在y轴上.
答案 (1)× (2)× (3)√ (4)×
【例题1】 某地电影院为了了解当地影迷对票价的看法,进行了一次调研,得到了票价x(单位:元)与渴望观影人数y(单位:万人)的结果如表所示.
x/元
30
40
50
60
y/万人
4.5
4
3
2.5
(1)若y与x具有较强的相关关系,试分析y与x之间是正相关还是负相关;
(2)请根据表格提供的数据,用最小二乘法求出y关于x的经验回归方程;
(3)根据(2)中求出的经验回归方程,预测票价定为多少元时,能获得最大票房收入.
解析 (1)由表中数据易知,y随x的增大而减小,故y与x之间是负相关.
(2)由表中数据可得,=45,=3.5,
xiyi-4 =-35,x-42=500,
则==-0.07,
=3.5+0.07×45=6.65,
所以所求经验回归方程为=-0.07x+6.65.
(3)根据(2)中的经验回归方程知,若票价为x元,则渴望观影人数约为(-0.07x+6.65)万人,可预测票房收入z=x(-0.07x+6.65)
=-0.07x2+6.65x
=-0.07(x-47.5)2+157.937 5,
易知当x=47.5时,z取得最大值,
即票价定为47.5元时,能获得最大票房收入.
规律总结
求经验回归方程的基本步骤
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算:,,x,y,xiyi;
(3)代入公式求出=x+中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
[注意] 由=-可知经验回归方程一定经过点(,),因此点(,)通常称为样本点的中心,其中,分别是变量x1,x2,…,xn和y1,y2,…,yn的平均数.
【变式1】 (1)已知x与y的一组数据如表所示,则y与x的经验回归方程=x+必过点( )
x
0
1
3
4
y
1
4
6
9
A.(0,1) B.(2,5)
C.(1,4) D.(5,9)
(2)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表所示,则y关于x的经验回归方程为__________.
记忆力x
6
8
10
12
判断力y
2
3
5
6
解析 (1)由表中数据可知==2,==5,所以样本中心点为(2,5).由经验回归方程的性质可知,经验回归方程=x+必过点(2,5).故选B项.
(2)由题中表格可得=×(6+8+10+12)=9,=×(2+3+5+6)=4,xiyi=6×2+8×3+10×5+12×6=158,x=62+82+102+122=344,所以===0.7,=-=4-0.7×9=-2.3,
所以y关于x的经验回归方程为=0.7x-2.3.
答案 (1)B (2)=0.7x-2.3
【例题2】 已知某种商品的单价x(单位:元)与需求量y(单位:件)的一组数据如表所示.
x/元
14
16
18
20
22
y/件
12
10
7
5
3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
解析 计算可得=×(14+16+18+20+22)=18,=×(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1 660,
xiyi=14×12+16×10+18×7+20×5+22×3=620,
则===-1.15,=-=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
列出残差表如表所示.
y
12
10
7
5
3
12
9.7
7.4
5.1
2.8
y-
0
0.3
-0.4
-0.1
0.2
所以(yi-i)2=0.3,又(yi-)2=53.2,
所以R2=1-≈0.994.
故回归模型的拟合效果很好.
规律总结
“R2、残差图”在回归分析中的作用
(1)R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
【变式2】 (1)某种产品的广告费支出x(单位:万元)与销售额y(单位:万元)的数据如表所示,y与x的经验回归方程为=6.5x+17.5,当广告支出为5万元时,随机误差的效应(残差)为( )
x/万元
2
4
5
6
8
y/万元
30
40
60
50
70
A.10 B.20
C.30 D.40
(2)在关于人体脂肪含量y(百分比)和年龄x关系的研究中,得到如表所示的数据.
年龄x
23
27
39
41
45
58
脂肪含量y
9.5
17.8
21.2
25.9
27.5
28.2
通过计算可知,=0.65,=-2.72,当年龄为23岁时,请计算出误差的残差为______.
解析 (1)因为y与x的经验回归方程为=6.5x+17.5,所以当x=5时,=6.5×5+17.5=50.由表格可知当广告支出5万元时,销售额的观测值为60万元,所以随机误差的效应(残差)为60-50=10.故选A项.
(2)y对x的回归直线方程为=0.65x-2.72,当x=23时,=12.23,y-=9.5-12.23=-2.73,所以23岁的残差为-2.73.
答案 (1)A (2)-2.73
【例题3】 某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,…,10)的数据,得到的散点图如图所示.
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
(2)对数据作出如下处理,令ui=ln xi,vi=ln yi,得到相关统计量的值如表所示,根据第(1)问的判断结果及表中数据,求y关于x的经验回归方程.
i
i
(ui-)(vi-)
(ui-)2
15
15
28.25
56.5
附:对于一组数据(u1,v1),(u2,v2),…,(un-1,vn-1),(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
解析 (1)由散点图可知,选择y=c·xd作为回归方程类型更合适.
(2)对y=c·xd两边取对数,得ln y=ln c+dln x,
即v=ln c+du.
由表中数据求得====,
===.
令ln c=m,则=-=-×=,即c=e.所以年销售量y与年研发费用x的回归方程为y=e.
规律总结
解决非线性经验回归问题的方法及步骤
【变式3】 (1)在研究两个变量的线性相关关系时,观察散点图发现样本点集中于某一条曲线y=ebx+a的周围,令z=ln y,求得经验回归方程为=0.25x-2.58,则该模型的经验回归方程为( )
A.=e0.25x-2.58
B.=e2.58x-0.25
C.=e0.25-2.58x
D.=e2.58-0.25x
(2)某沿海城镇的生蚝田处于咸淡水交汇之地,所以这里的生蚝长得比其他地方肥大,味道更加鲜美.2024年该城镇某养殖基地考虑增加人工投入,根据市场调研与模拟,得到人工投入增量x人与年收益增量y万元的数据和散点图分别如下:
x
2
3
4
6
8
10
13
y
13
22
31
42
50
56
58
根据散点图,建立了y与x的两个回归模型:
模型Ⅰ:=4.1x+11.8;模型Ⅱ:=+.
①求出模型Ⅱ中y关于x的回归方程(精确到0.1);
②比较模型Ⅰ,Ⅱ的决定系数R2的大小,说明哪个模型拟合效果更好,并用该模型预测,要使年收益增量超过80万元,人工投入增量至少需要多少人(精确到1)?
参考公式:线性回归方程=x+的系数==,=-;决定系数:R2=1-.
参考数据:令t=,则=t+,且≈2.46,≈38.86,(ti-)(yi-)≈80.97,(ti-)2≈3.78;模型Ⅰ中(yi- i)2=182.42;模型Ⅱ中(yi-i)2=74.12.
解析 (1)由=0.25x-2.58得ln =0.25x-2.58,则= e0.25x-2.58,所以该模型的经验回归方程为=e0.25x-2.58.故选A项.
答案 A
(2)①令t=,则模型Ⅱ为=t+,
由≈2.46,≈38.86,(ti-)(yi-)≈80.97,(ti-)2≈3.78,
得==≈21.4,
=-=38.86-21.4×2.46≈-13.8,
所以模型Ⅱ中y关于x的回归方程是=21.4-13.8.
②模型Ⅰ中的决定系数R2=1-,
模型Ⅱ的决定系数R2=1-,
因为182.42>74.12,所以模型Ⅰ的决定系数小于模型Ⅱ的决定系数,所以模型Ⅱ的拟合效果更好.
在模型Ⅱ下,年收益增量超过80万元,则有21.4-13.8>80,所以x>2≈19.2,所以人工投入增量至少需要20人.
1.(多选)关于回归分析,下列说法正确的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.回归模型是一种函数模型
答案 ABC
解析 由回归分析的相关概念知,A,B,C项正确;函数模型刻画两个变量之间的确定性关系,而回归模型刻画两个随机变量之间的相关关系,所以回归模型不是函数模型,D项说法错误.故选ABC项.
2.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄,决定系数越小
D.残差点分布的带状区域的宽度越窄,残差平方和越小
答案 C
解析 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时决定系数R2的值越大.故选C项.
3.双十一是指由电子商务为代表的,在全中国范围内兴起的大型购物促销狂欢节.已知某一家具旗舰店近五年双十一的成交额如表所示.
年份
2019
2020
2021
2022
2023
时间代号t
1
2
3
4
5
成交额y/万元
50
60
70
80
100
若y关于t的经验回归方程为=12t+,则根据经验回归方程预计该店2025年双十一的成交额是( )
A.84万元 B.96万元
C.108万元 D.120万元
答案 D
解析 由题意得=×(1+2+3+4+5)=3,=×(50+60+70+80+100)=72,因为经验回归方程过样本点中心(,),所以=12t+过点(3,72),即72=12×3+,所以=36,当t=7时,=12×7+36=120.故选D项.
4.某企业对4个不同部门的个别员工的年旅游经费调查发现,员工的年旅游经费y(单位:万元)与其年薪x(单位:万元)有较好的线性相关关系,通过如表所示的数据计算得到y关于x的经验回归方程为=0.252 9x-1.457 4.
x
7
10
12
15
y
0.4
1.1
1.3
2.5
那么相应于点(10,1.1)的残差为______.
解析 当x=10时,=0.252 9×10-1.457 4=1.071 6,所以残差为y-=1.1-1.071 6=0.028 4.
答案 0.028 4
5.汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎面磨损.某实验室通过实验测得行驶里程与某品牌轮胎凹槽深度的数据,建立了如下回归模型y=c1·ec2·x,通过实验数据分析与计算得到如下结论:①c2=-0.18;②=10,令u=ln y,=0.35,则回归方程应为______.
解析 因为回归模型为y=c1·ec2·x,c2=-0.18,所以y= c1·e-0.18x,两边同时取对数,可得ln y=ln(c1·e-0.18x)=ln c1-0.18x,令u=ln y,此时u=ln c1-0.18x,又=10,=0.35,所以ln c1=0.35+0.18×10=2.15,即c1=e2.15,所以y=e2.15·e-0.18x= e2.15-0.18x.
答案 y=e2.15-0.18x
$$