内容正文:
8.2 一元线性回归模型及其应用
1.结合具体实例,了解一元线性回归模型的含义
2.了解模型参数的统计意义,了解最小二乘原理
3.会通过分析残差和利用 R2 判断回归模型的拟合效果
4.了解非线性回归模型
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等. 进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测. 下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高. 为了进一步研究两者之间的关系,有人调查了某所高校14名男大学生的身高及其父亲的身高,得到的数据如表所示.
一元线性回归模型
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图. 可以发现,散点大致分布在一条从左下角到右
上角的直线附近,表明儿子身高
和父亲身高线性相关. 利用统计
软件,求得样本相关系数为,表
明儿子身高和父亲身高正线性相
关,且相关程度较高.
思考1:根据表中数据,儿子身高和父亲身高这两两个变量之间的关系可以用函数模型刻画吗?
表中所示数据,存在父亲身高相同,而儿子身高不同的情况. 可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
但散点图表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型. 其中,随机误差是一个随机变量.
用 x 表示父亲身高,Y 表示儿子身高,e 表示随机误差. 假定随机误差 e 的均值为0,方差为与父亲身高无关的定值 σ2 ,则它们之间的关系可以表示为
我们称上式为 Y 关于 x 的一元线性回归模型. 其中,Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和 b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是 Y 与 之间的随机误差.
例1 在一元线性回归模型 中,下列说法正确的是( )
A. 是一次函数
B.响应变量 Y 是由解释变量 x 唯一确定的
C.响应变量 Y 除了受解释变量 x 的影响外,可能还受到其他因素的影响,这些因素会导致随机误差 e 的产生
D.随机误差 e 是由于计算不准确造成的,可通过精确计算避免随机误差 e 的产生
C
1.关于一元线性回归模型 给出下列说法:
①表达式 刻画的是变量 Y 与变量 x 之间的线性相关关系;
② 反映了由于 x 的变化而引起的 Y 的线性变化;
③误差项 e 是一个期望值为0的随机变量,即 E(e)=0;
④对于所有的 x 值,e 的方差都相同.
其中正确的是___________(填序号).
①②③④
一元线性回归模型参数的最小二乘估计
思考2:如何利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近?
先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
我们设满足一元线性回归模型的两个变量的 n 对样本数为 ,
,..., ,由 ,
得 .
通常,我们会想到利用点到直线 的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
显然, 越小,表示点 与点 的“距离”越小,即样本数据点离直线 的竖直距离越小. 特别地,当 时,表示点 在这条直线上.
因此,可以用这 n 个竖直距