内容正文:
8.2.1 一元线性回归模型
1
内容索引
复习回顾
典例分析
探究新知
随堂练习
01
03
02
04
课堂小结
05
课后作业
06
2
判断下列情境中两个变量是否是相关关系?
复习回顾
1.正方形面积y与边长x的关系
2.子女身高y与父亲身高x的关系
3.粮食产量y与种植面积x的关系
4.某商品价格不变情况下,该商品销售利润y与销售量x的关系
×
√
×
√
思考:是否能建立适当的统计模型来刻画两个随机变量之间的相关关系,并通过模型进行预测?
3
探究新知
探究1:
生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高。为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高
4
探究新知
探究2:
根据表格及图形,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
不能
表中的数据,存在父亲身高相同而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176cm和174cm;同样在第3,4个观测中,儿子的身高都是170cm,而父亲的身高分别为173cm,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.
5
探究新知
探究3:
从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近表明儿子身高和父亲身高有较强的线性关系。我们可以这样理解,由于有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素的存在,使儿子身高和父亲身高有关系但不是函数关系。能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高y与父亲身高x的关系?
用e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以y=bx+a+e
6
探究新知
用x表示父亲身高,Y表示儿子身高,e表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的定值 ,则它们之间的关系可以表示为:
(1)
我们称 (1) 式为Y关于x的一元线性回归模型(simple linear regression model)。
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
定义:一元线性回归模型
7
探究新知
观察一元线性回归模型
问题1: 你能结合父亲与儿子身高的实例,说明该回归模型的意义吗?
可以解释为父亲身高为 的所有男大学生身高组成一个子总体,该子总体的均值为 ,即该子总体的均值与父亲的身高是线性函数关系.
而对于父亲身高为 的某一名男大学生,他的身高 并不一定为 ,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项
yi
8
探究新知
观察一元线性回归模型
问题2:你能结合具体实例解释产生模型中随机误差项 e 的原因吗?
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.
9
探究新知
观察一元线性回归模型
问题3:我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散 点在整体上与这条直线最“接近”?
10
探究新知
因此,可以用 来刻画各样本观测数据与直线y=bx+a的整体接近程度。
11
探究新知
定义:残差平方和
∴
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
12
探究新知
定义:残差平方和
当a,b的取值为
时,Q达到最小
13
探