内容正文:
8.2 一元线性回归模型及其应用(单元教学设计)
一、【单元目标】
(1)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
(2)了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
(3)掌握残差分析的方法,理解决定系数的意义,会使用相关的统计软件.
(4)针对实际问题,会用一元线性回归模型进行预测.
二、【单元知识结构框架】
三、【学情分析】
学生已掌握函数、导数、概率统计等基础知识,为学习一元线性回归模型奠定了基础.学生具备一定的抽象思维能力和数学运算能力,但面对新的统计模型可能存在理解上的困难.学生需要具备良好的逻辑思维和分析问题的能力,以便将实际问题转化为数学模型.
四、【教学设计思路/过程】
课时安排:约3课时
教学重点:一元线性回归模型的含义;用最小二乘法估计回归模型参数的方法;残差分析和决定系数的意义;一元线性回归模型的应用.
教学难点:对随机误差的理解;最小二乘原理与方法;参数的意义及参数估计公式的推导;残差变量的解释与分析;模型的应用及优度的判断.
教学方法/过程:
五、【教学问题诊断分析】
环节一、情景引入,温故知新
情景:通过前面的学习我们已经知道,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等,那么当两个变量线性相关时,我们如何利用成对样本数据建立统计模型进行预测?
环节二、抽象概念,内涵辨析
1.一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高具有正相关的关系,为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示:
编号
1
2
3
4
5
6
7
父亲身高/cm
174
170
173
169
182
172
180
儿子身高/cm
176
176
170
170
185
176
178
编号
8
9
10
11
12
13
14
父亲身高/cm
172
168
166
182
173
164
180
儿子身高/cm
174
170
168
178
172
165
182
我们画出散点图(课本105页图8.2-1)并通过计算得到样本相关系数r≈0.886.
问题1:由样本相关系数可以得到什么结论?
【破解方法】由散点图的分布趋势表明儿子的身高与父亲的身高线性相关,通过样本相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.
问题2:这两个变量之间的关系可以用函数模型来刻画吗?
【破解方法】不能.因为这两个变量之间不是函数关系,也就不能用函数模型刻画.
【归纳新知】
一元线性回归模型
我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的末知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
2.最小二乘法和经验回归方程
问题3:在一元线性回归模型中,表达式刻画了变量Y与x之间的线性相关关系,其中参数a和b未知,确定参数a和b的原则是什么?
【破解方法】使表示成对样本数据的各散点在整体上与一条适当的直线尽可能地接近.
问题4:下列确定直线的四种方法中最具有可行性的是哪一个?
方法(1):先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离和最小的位置,测量出此时的斜率和截距,就得到一条直线.
方法(2):可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.
方法(3):在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.
方法(4):我们可以考虑使各组数据的随机误差e的和最小来确定直线的斜率和截距.
【破解方法】方法(1),(2),(3)虽然有一定道理,但是比较难操作,方法(4)可以利用点到直线的距离来刻画散点与该直线的接近程度,然后利用所有距离之和刻画所有样本观测数据与该直线的接近程度.
问题5:对于一组具有线性相关关系的数据利用“残差”平方和最小这个标准,估计一元线性回归模型的参数和你能推导出参数和估计值的公式吗?
【破解方法】教师首先引导学生将问题数学化:“残差”平方和为其中是已知的成对样本数据由和决定,即它是和的函数,所以问题的本质是求和的值,使最小.接着,师生合作解决这个问题,得出参数估计公式,可让学生阅读教科书中相关部分,并尝试自己进行公式推导.最后,教师给出最小二乘法的概念.若是参数的最小二乘估计,将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形为经验回归直线.这种求经验回归方程的方法叫做最小二乘法.对于基础较好的学生,可以要求他们课后思考如何求的最小值问题.
【归纳新知】
线性回归方程与最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计,其中
3.残差及残差分析
问题6:我们知道儿子身高Y关于父亲身高x的经验回归方程为,那么当时,,如果一位父亲的身高为172 cm,他儿子长大成人后的身高一定是173 cm吗?为什么?
【破解方法】不一定,因为还有其他影响他儿子身高的因素,父亲的身高不能完全决定儿子身高.
问题7:对于课本105页表8.2-1中的第6个观测,我们发现当父亲身高为172 cm时,儿子的身高实际为176 cm,实际身高与预测的身高相差了多少?
【破解方法】.
【归纳新知】
残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.残差平方和与决定系数
问题8:例2中给出了两个模型,那么如何比较这两个模型的拟合效果?
【破解方法】残差平方和、决定系数.
【归纳新知】
刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用刻画回归效果
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客立预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.
环节三:例题练习,巩固理解
例1.经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据,试根据这些数据建立树高关于胸径的线性回归方程.
编号
1
2
3
4
5
6
胸径/
18.1
20.1
22.2
24.4
26.0
28.3
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
编号
7
8
9
10
11
12
胸径/
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
22.4
22.6
23.0
24.3;
23.9
24.7
【解析】 由已知
,
,
,
所以线性回归方程为:.
例2.随着经济的发展某地居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份
2013
2014
2015
2016
2017
储蓄存款(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,,得到下表:
时间代号
1
2
3
4
5
0
1
2
3
5
(1)求关于的经验回归方程;
(2)通过(1)中的方程,求出关于的经验回归方程;
(3)用所求经验回归方程预测到2021年年底,该银行储蓄存款可达多少?
附:对于经验回归方程,其中,.
【解析】(1)设关于的线性回归方程为,
经计算得:,,
,
,
∴,,
∴;
(2)将,代入得:,
即;
(3)时,(千亿元),
预测到年年底,该银行储蓄存款额可达千亿元.
例3.某研究所研究耕种深度(单位:)与水稻每公顷产量(单位:)的关系,所得数据资料如下表.
耕种深度
8
10
12
14
16
18
每公顷产量
6
7
8
9
11
13
(1)求样本相关系数(结果保留两位小数),并判断它们是否具有较强的线性相关性;
(2)求经验回归方程.
参考数据:;
参考公式:,,.
【解析】(1)由题意可知,
,
故,故有较强的线性相关性,
(2)
,
故,
将代入可得,
故回归直线方程为
例4.铁观音性寒、味甘、酸、归肺、脾经,具有清热降火、健脾消脂、提神醒脑、生津利尿的功效,是中国十大名茶之一.为促使各生产厂家健康科学发展,某调研机构随机抽取家铁观音生产厂家,整理得到生产铁观音的单位成本(元/盒)与铁观音的产量(千盒)之间的关系数据如下:
铁观音的产量千盒
生产铁观音的单位成本(元/盒)
(1)根据所给数据,求生产铁观音的单位成本关于铁观音产量的一元线性回归方程,并估计单位成本为元/盒时产量为多少(计算过程保留两位小数);
(2)根据(1)中的回归模型,计算各组残差,并计算残差的平方和.
【解析】(1)由表格数据知:,,,,
,
,
生产铁观音的单位成本关于铁观音的产量的一元线性回归方程为,
令,则,解得:,
当单位成本为元/盒时,预估产量约为盒.
(2)各组残差分别为:
,
,
,
,
,
,
残差的平方和.
例5.某企业2017年至2021年年销售量收益y(单位:百万元)与广告投入x(单位:万元)的数据如下表:
年份
2017
2018
2019
2020
2021
广告投入x
1
2
3
4
5
年销售收益y
2
3
3
6
7
表中的数据显示,可用一元线性回归模型建议x与y之间的经验回归方程.
(1)求年销售收益y关于广告投入x的经验回归方程;
(2)求决定系数R2的值.
参考公式:经验回归方程中的斜率和截距的最小二乘估计公式分别为:,,
【解析】(1)由题意可得:,,
所以,
所以回归方程为;
(2)因为,,,,,;
所以,
又因为18.8,
所以=1=.
环节四:小结提升,形成结构
问题9:请你带着下列问题回顾本节课学习的内容:
(1)什么是一元线性回归模型参数的最小二乘估计?利用最小二乘法得到的参数估计公式是什么?
(2)经验回归直线有什么性质?
(3)如何用残差分析一元线性回归模型的有效性?
【破解方法】先让学生思考并小组交流,再让小组代表发言分享,教师协助完善,师生一起归纳.
六、【教学成果自我检测】
环节五:目标检测,检验效果
1.如图,去掉点D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.决定系数R2变大
D.解释变量x与预报变量y的相关性变强
【答案】B
【解析】去掉D(3,10)后,其他数据都在一条直线附近,变量x与变量y的相关性变强,模型拟合效果变好,故残差平方和变小.
2.某市卫健委为了研究本市初中男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该市随机抽取100名初中男生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其经验回归方程为,,,若该市某位初中男生的脚长为25cm,据此估计其身高为( )
A.166cm B.168cm C.170cm D.172cm
【答案】C
【解析】由,,得样本的中心点为,
则,解得,因此经验回归方程为,
当时,(cm).
故选:C
3.有一散点图如图所示,在六组数据中去掉点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量正相关
B.相关系数的绝对值更接近于0
C.去掉点后,回归直线的效果变弱
D.变量与变量相关性变强
【答案】D
【解析】对A:由图可知,样本数据的两变量负相关,故A错误;
对B:由图可知,点相对于其它点,偏离直线远,故去掉点后,回归直线的拟合效果会更好,相关系数的绝对值更接近于1,故B错误;
对C:去掉点后,回归直线的效果变强,故C错误;
对D:正确.
故选:D
4.已知变量与的取值如下表:
1
2
3
4
5
5
8
11
且对呈现线性相关关系,则与的经验回归方程必经过的定点为( )
A. B. C. D.
【答案】C
【解析】由于,
则线性回归方程必过定点.
故选:C.
5.根据变量和的成对样本数据,由一元线性回归模型①,得到经验回归模型,对应的残差如图(1)所示.根据变量和的成对样本数据,由一元线性回归模型②,得到经验回归模型,对应的残差如图(2)所示,则( )
A.模型①的误差满足一元线性回归模型的的假设,不满足的假设
B.模型①的误差不满足一元线性回归模型的的假设,满足的假设
C.模型②的误差满足一元线性回归模型的的假设,不满足的假设
D.模型②的误差不满足一元线性回归模型的的假设,满足的假设
【答案】A
【解析】对于残差图(1)对应的散点,随机误差满足的假设,但是方差随着的变化而变化,不满足的假设;
对图(2)对应的散点,均匀分布在水平带状区域内,随机误差满足的假设,方差不随的变化而变化,满足的假设.
故选:A.
6.如图是由一组实验数据得到的散点图,以下四个回归方程类型中适合作为与的回归方程类型的是( )
A. B.
C. D.
【答案】C
【解析】由散点图中各点的变化趋势:非线性、且上单调递增,所以适合指数型模型.
故选:C.
7.(多选题)小王经过调查获得如下数据:
2
4
7
17
30
1
2
3
4
5
参考公式:相关系数,,.
下列说法正确的有( )
A.该数据组的线性回归方程(系数精确到0.01)为
B.该数据组的相关系数,很接近1说明该数据组拟合效果很好
C.所有数据点中残差最小的是
D.去掉数据点后,回归直线会向下移动
【答案】ACD
【解析】对于A,,,
,
,
所以,,
所以该数据组的线性回归方程为,故A正确;
对于B,由,
则,很接近1说明两个变量相关性越强,与拟合效果无关,故B错误;
对于C,由残差绝对值,结合A项的回归方程可得,
,,,
,,所有数据点中残差最小的是,故C正确;
对于D,,故点在回归直线上方,故去掉该点后,回归直线下移,故D正确.
故选:ACD.
8.某公司收集了某商品销售收入(单位:万元)与相应的广告支出(单位:万元)共10组数据,绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法错误的是 .
①决定系数变小 ②残差平方和变小
③相关系数的值变小 ④自变量与因变量相关性变弱
【答案】①③④
【解析】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
故决定系数会变大,更接近于1;残差平方和变小;
相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1,即相关系数的值变大,自变量与因变量相关性变强,故①,③,④错误,②正确.
故答案为:①③④.
9.如表提供的和是两组具有线性相关关系的数据,已知其回归方程为则 .
3
5
7
9
2.5
4
6.5
【答案】5
【解析】由表可知,,,
所以样本中心点为,
代入,得,解得.
故答案为:5.
10.由样本数据,求得回归直线方程为,且,若去除偏离点后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .
【答案】
【解析】由于回归直线过样本中心点,当时,,
去除偏离点后,剩余数据的中心点为,
则,,
将点的坐标代入回归直线方程,可得,解得,
所以,新的回归直线方程为,
当时,,
所以,去除偏离点后,相应于样本点的残差值为.
故答案为:.
【设计意图】落实与理解教材要求的基本教学内容.
环节六:布置作业,应用迁移
作业:教科书第120~121页习题8.2第1、3、4、5题.
【设计意图】巩固本节课的知识点.
七、【教学反思】
在本节教学中,我基本达成了教学目标,但也存在一些问题.
成功之处在于,通过实际案例引入,让学生直观感受到一元线性回归模型在生活中的广泛应用,激发了他们的学习兴趣.利用数学软件进行实践操作,使学生更好地掌握了模型构建和参数估计的方法,提高了他们的动手能力.
然而,教学过程中也暴露出不足.部分学生在理解最小二乘法的原理时表现出困惑,说明我在理论讲解上不够深入和透彻.小组活动中,个别小组分工不够明确,导致合作效率不高.此外,对于学生在操作过程中出现的问题,我未能及时给予全面的指导.
在今后的教学中,我会更充分地考虑学生的基础差异,优化理论讲解方式,多引入生动有趣的实例.加强小组活动的组织和管理,明确每个学生的任务.同时,在学生实践过程中,增加巡视和指导的频率,确保每个学生都能掌握所学内容.
14 / 15
京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$