内容正文:
第八章成对数据的统计分析
人教A版2019必修第三册
8.2.2 一元线性回归模型参数的最小二乘估计(第1课时)
学习目标
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.
2.了解非线性回归模型.
3.会通过分析残差和利用R2判断回归模型的拟合效果.
复习回顾
1.一元线性回归模型
2.一元线性回归模型与函数模型的区别
Y称为因变量或响应变量,
x称为自变量或解释变量,
e是Y与bx+a之间的随机误差.
a称为截距参数,
b称为斜率参数.
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.
情景引入
提示 不一定;越小越好.
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计. 由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
探究 利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
方法一:采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置. 然后测量出此时的斜率和截距,就可得到一 条直线,如图(1)所示.
方法二: 在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图(2)所示.
方法三:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距,如图(3)所示.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), ‧‧‧, (xn, yn), 由yi=bxi+a+ei (i=1, 2, ‧‧‧, n),得
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如右图所示. 特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
因此,可以用这n个竖直距离之和 来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”.
所以我们可以取使Q达到最小的a和b的值作为截距和斜率的估计值.
要使Q取到最小值,则
∴要使Q取得最小值,当且仅当b的取值为
综上,当a, b的取值为
时,Q达到最小.
经验回归方程与最小二乘估计:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用公式(2)求得的 叫做b, a的最小二乘估计.
这里的“二乘”是平方的意思.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
对于上表中的数据,利用公式(2)可以计算出 得到儿子身高Y关于父亲身高x的经验回归方程为 相应的经验回归直线如下图所示.
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
例1 某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:
(1) 画出销售额和利润额的散点图;
(2) 计算利润额y对销售额x的经验回归直线方程.
解:(1) 散点图如下:
∴所求经验回归方程为
解1:(2)
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3