内容正文:
8.2一元线性回归模型及其应用
8.2.1一元线性回归模型
第八章
成对数据的统计分析
人教A版选择性必修第三册·高二
章节导读
成对数据的统计相关性
变量的相关关系
样本相关系数
一元线性回归模型及其应用
列联表与独立性检验
一元线性回归模型
一元线性回归模型参数的最小二乘估计
分类变量与列联表
独立性检验
学 习 目 标
1
2
3
结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义
了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法
针对实际问题,会用一元线性回归模型进行预测,培育数据分析、数学运算的核心素养
新知导入
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.
思考 是否可以能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型来刻画两个变量之间的相关关系?
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
新知探究
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图,如右图所示.
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.
利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
新知探究
问题2 根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
…
172
…
父亲身高
…
176
174
…
儿子身高
儿子身高不是父亲身高的函数
…
170
…
儿子身高
…
173
169
…
父亲身高
父亲身高不是儿子身高的函数
可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.
新知探究
图中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响.
问题2 除父亲身高外,还有哪些因素影响儿子的身高?
随机误差e
母亲身高
生活环境
饮食习惯
体育锻炼
……
是一个随机变量
新知探究
追问 如何理解随机误差e对儿子身高的影响?
假设没有随机误差,则儿子身高Y只受父亲身高x影响,则Y=bx+a
事实上,相关系数r ≈0.88 ,故Y≈bx+a
也可以记作
Y=bx+a+e
随机误差e
随机误差e的特征
随机误差e是一个随机变量
①可取正或取负
②有些无法测量
③不可事先设定
对于任意一组(xi,Yi),都有一个ei与之对应
新知探究
用x表示父亲身高,Y表示儿子身高,e表示随机误差.可以假设随机误差e的均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示为:
这样得到刻画两个变量之间关系的线性回归模型.
我们称(1)式为Y关于x的一元线性回归模型.
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由 x所确定,后一部分是随机的. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
新知探究
问题3 你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
可以解释为父亲身高为xi的所有男大学生身高组成一个子总体,该子总体的均值为 bxi+a ,即该子总体的均值与父亲的身高是线性函数关系.
对于父亲身高为的某一名男大学生,他的身高并不一定为 bxi+a ,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi -(+a).
问题4 对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?
新知探究
问题5 你能结合具体实例解释产生模型(1)中随机误差项的原因吗?
1、忽略了其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包括遗传基因、饮食习惯、生长环境等因素;
2、用线性回归模型近似真实模型所引起的误差;
3、身高 y 的观测误差。
巩固练习
课本107页
1. 说明函数模型与回归模型的区别,并分别举出两个应用函数模型和回归模型的例子.
解析:函数模型刻画的是变量之间具有的函数关系,是一种确定性的关系. 回归模型刻画的是变量之间具有的相关关系,不是一种确定性关系,即回归模型刻画的是两个变量之间的随机关系.
举例:路程与速度的关系、正方体体积与边长的关系可以应用函数模型刻画,体重与身高的关系、冷饮销量与气温的关系可以用回归模型刻画。
一元线性回归模型Y=bx+a+e增加了随机误差项e,因变量Y 的值由自变量x和随机误差项e共同确定, 即自变量x只能解释部分Y的变化.
巩固练习
课本107页
2. 在一元线性回归模型(1) 中,参数b的含义是什么?
解:参数b的含义可以解释为解释变量x对响应变量Y的均值的影响,变量x每增加1个单位,响应变量Y的均值将增加b个单位.
例如,教科书中父亲身高为175 cm的儿子身高的均值比父亲身高为174cm的儿子身高的均值高出0.839cm.
注意:因为响应变量Y最终取值,除了受变量x的影响,还要受随机误差e的影响,所以不能解释成解释变量x每增加一个单位,响应变量Y一定增加b个单位.
巩固练习
课本107页
3. 将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图象是一个折线图,可以用这条折线表示儿子身高和父亲身高之间的关系吗?
解:不能.
一是父亲的身高与儿子的身高之间是随机关系,不是函数关系;
二是这组数据仅是总体的一个样本,不一定能很好地描述两个变量之间的关系.
一元线性回归模型辨析
题型一
题型探究
【例1】关于一元线性回归模型 ,下列说法正确的是( )
C
A. 是一次函数
B. 因变量是由自变量 唯一确定的
C. 因变量除了受自变量 的影响外,可能还受到其他因素的影响,这些因素会
导致随机误差 的产生
D. 随机误差 是由于计算不准确产生的,可通过精确计算避免随机误差 的产生
[解析] 选项A,一元线性回归模型 表示的不是函数关系,因此不是
一次函数,故A错误;选项B,因变量不是由自变量 唯一确定的,故B错误;选
项D,随机误差是不能避免的,只能将误差缩小,但是不可能没有误差,故D错误.
一元线性回归模型辨析
题型一
题型探究
解题感悟
这类概念辨析题,只需要根据一元线性回归模型的相关定义即可逐一判断.
一元线性回归模型中随机误差的计算
题型二
题型探究
【例2】若某地年财政收入(单位:亿元)与年支出 (单位:亿元)满足一元
线性回归模型,其中, , ,如果今年该地区
财政收入为10亿元,那么年支出预计不会超过_____亿元.
10.5
[解析] 由题意得.当 时,
,又,即 ,
所以 ,所以年支出预计不会超过10.5亿元.
一元线性回归模型中随机误差的计算
题型二
题型探究
提分笔记
一元线性回归模型中随机误差的计算,可以通过已知条件建议关于和方程组解方程组到回归方程即可.
一元线性回归模型与散点图
题型三
题型探究
【例3】下图是根据下x,y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,则变量x,y能用一元线性回归模型y=bx+a+e来刻画,且b<0的是( )
[解析] 根据变量x,y具有线性相关关系,则散点在某条直线附近,又b<0,所以散点从左上至右下.故选:A.
A
一元线性回归模型与散点图
题型三
题型探究
【例4】鲫鱼产卵后,鱼卵的孵化时间(单位:天)会受到水温(单位:℃)的影响,下面是某生物研究小组进行8次观察实验收集到的数据:
水温x/℃ 15 16 18 20 21 23 26 29
孵化时间y/天 8 7 6 5 5 4 3 2
(1)画出上述成对数据的散点图;
(2)已知水温对鱼卵的孵化时间可表示为一元线性回归模型,请在散点图中近似地作出表示孵化时间y和水温x之间关系的直线,并说明该一元线性回归模型的自变量与因变量.
一元线性回归模型与散点图
题型三
题型探究
[解析] (1)以x轴表示水温,y轴表示孵化时间,可作散点图如下:
(2)直线如图所示,由(1)中散点图及一元线性回归模型定义可得,其中水温x为自变量,孵化时间y为因变量.
课堂达标
1.(多选题)下列说法中正确的有( )
AB
A. 在相关关系中,自变量取值一定时,因变量的取值带有一定的随机性
B. 在平面直角坐标系中,用描点的方法得到的表示具有相关关系的两
个变量的一组数据的图形叫做散点图
C. 在回归模型中,变量和 都是普通变量
D. 任何一组观测值都能得到具有代表意义的经验回归方程
[解析] 在回归模型中,是解释变量, 是响应变量,当解释变量取值一定时,
响应变量的取值带有一定的随机性, 是随机变量,故C中说法不正确;
当所得到的一组观测值不具有相关关系时,求得的经验回归方程就毫无意义,故
D中说法不正确.故选 .
课堂达标
2.关于一元线性回归模型 给出下列说法:
①表达式刻画的是变量与变量 之间的线性相关关系;
②反映了由的变化引起的 的线性变化;
③误差项是一个期望值为0的随机变量,即 ;
④对于所有的值,的方差 都相同.
以上说法正确的是__________(填序号).
①②③④
[解析] 根据一元线性回归模型的含义可知,①②③④中的说法均正确.
课堂小结
一元线性回归模型:
一元线性回归模型与函数模型的区别
Y称为因变量或响应变量
x称为自变量或解释变量
e是Y与bx+a之间的随机误差.
a称为截距参数
b称为斜率参数
感谢聆听!
A. B. C. D.
$