内容正文:
8.2 一元线性回归模型及其应用
英国著名统计学家高尔顿在研究父亲身高与儿子身高的关系时发现了一个有趣的现象:一群父亲的身高普遍偏高时,他们的儿子的平均身高要低于父亲们的平均身高,一群父亲的身高普遍偏矮时,他们的儿子的平均身高要高于父亲们的平均身高。他把这种现象叫做“回归现象”。后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析。本节我们将学习一元线性回归模型参数的最小二乘估计及其在社会生活中的应用。
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计,会使用相关的统计软件。
2.针对实际问题,会用一元线性回归模型进行预测。
1.一元线性回归模型
以儿子身高与父亲身高间的关系为例:由散点图我们知道儿子身高与父亲身高这两个变量之间具有较强的线性相关关系,用x表示父亲身高,用Y表示儿子身高,e表示随机误差。假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为我们称此式为Y关于x的一元线性回归模型。其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差。
2.最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中=, =-。
3.残差与残差分析
(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差。
(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析。
4.对模型刻画数据效果的分析
(1)残差图法:在残差图中,如果残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系。
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好。
(3)R2法:可以用R2=1-来比较两个模型的拟合效果,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差。
微思考
1.经验回归方程一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
提示:不一定。
2.点(,)在经验回归直线上吗?
提示:(,)在经验回归直线上。
3.利用经验回归方程求得的函数值一定是真实值吗?
提示:不一定,它只是真实值的一个预测估计值。
4.随机误差产生的原因是什么?
提示:所用的拟合函数不恰当;忽略了某些因素的影响;存在观测误差等。
第1课时 一元线性回归模型及其参数的最小二乘估计
类型一 一元线性回归模型
【例1】 若某地区年财政收入x(单位:亿元)与年支出y(单位:亿元)满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,|e|≤0.5。如果今年该地区财政收入为10亿元,那么年支出预计不会超过 (D)
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元
解析 由题意,得y=0.7x+3+e,当x=10时,得y=0.7×10+3+e=10+e,而|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,所以年支出预计不会超过10.5亿元。故选D。
在一元线性回归模型y=bx+a+e中y是随机变量,其值不能由解释变量x唯一确定,随机误差e也影响y的值,其中造成随机误差e的因素很多,在具体问题中应具体分析。
【变式训练】 (多选)关于随机误差产生的原因,分析正确的是 (ABC)
A.用线性回归模型近似真实模型所引起的误差
B.忽略某些因素的影响所产生的误差
C.对样本数据观测时产生的误差
D.计算错误所产生的误差
解析 理解一元线性回归模型y=bx+a+e中随机误差e的含义是解决此问题的关键,随机误差可能由于观测工具及技术产生,也可能因忽略某些因素产生,也可以是回归模型产生,但不是计算错误。故随机误差产生的原因分析正确的是ABC。
类型二 经验回归方程及应用
【例2】 某种产品的广告费用支出x(单位:百万元)与销售额Y(单位:百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
Y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求经验回归方程;
(3)试预测广告费用支出为10百万元时,销售额多大?
解 (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi