内容正文:
直线
8.2.1 一元线性回归模型
复习导入
通过前面的学习,我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
新知探索
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示.
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图,如图所示.可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为表明儿子身高和父亲身高正线性相关,且相关程度较高.
新知探索
思考1:根据上表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
在表的数据中,存在父亲身高相同,而儿子身高不同的情况.例如,第6个和第8个观测的父亲身高均为172,而对应的儿子身高分别为176和174;同样,第3,4两个观测中,儿子身高都是170,而父亲身高分别为173和169.可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
新知探索
图中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型.其中,随机误差是一个随机变量.
新知探索
用表示父亲身高,表示儿子身高,表示随机误差.假定随机误差的均值为,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
(1)
我们称(1)式为关于的一元线性回归模型.其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.模型中的也是随机变量,其值虽然不能由变量的值确定,但是却能表示为与的和(叠加),前一部分由所确定,后一部分是随机的.如果,那么与之间的关系就可用一元线性函数模型来描述.
新知探索
对于父亲身高和儿子身高的一元线性回归模型(1),可以解释为父亲身高为的所有男大学生的身高组成一个子总体,该子总体的均值为,即该子总体的均值与父亲身高是线性函数关系.而对于父亲身高为的某一名男大学生,他的身高并不一定为,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项.
思考2:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?
在研究儿子身高与父亲身高的关系时,产生随机误差的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差的原因.
新知探索
辨析1.判断正误.
在一元线性回归模型中,是预报真实值的随机误差,它是一个可观测的量.( )
答案:×.
辨析2.[多选]在如图所示的四个散点图,适合用一元线性回归模型拟合其中两个变量的是( ).
答案:AC.
课堂小结
1.一元线性回归模型:
我们称 为关于的一元线性回归模型.其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
如果,那么与之间的关系就可用一元线性函数模型来描述.
作业
(1)整理本节课的题型;
(2)课本P107的练习1——3题.
$