内容正文:
7.1.2 一元线性回归方程
前面讨论了直线拟合的一些做法,这一节我们将介绍数学中常用的拟合方法——最小二乘法.
对于给定的两个变量X和Y(如身高和体重),可以把其成对的观测值,表示为平面直角坐标系中的n个点.现在希望找到一条直线Y=a+bX.使得对每一个xi(i= 1.,2...).由这个直线方程计算出来的值a+bxi,与实际观测值yi的差异尽可能小,(利用所有的点到拟合直线的距离之和最小,点距离是=)为此,希望达到最小,换句话说,我们希望a,b的取值能使上式达到最小.(这种方法叫最小二乘法)
求变量之间的线性回归方程.假设样本点为(x1,y1),(x2, y2 ),…,(Xn, yn),设线性回归方程为y=a十bx,我们的想法就是要求a,b,使这n个点与直线y=a+bx的“距离”平方之和最小,即使得
d=[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2
最小
d=[y1-(+bx1)]2+[y2-(+bx2)]2+…+[yn-(+bxn)]2
=[+(bx1-y1)]2+[+(bx2-y2)]2+…+[+(bxn-yn)]2
=n2+2[(bx1-y1)+(bx2-y2)+…+(bxn-yn)]+(bx1-y1)2+(bx2-y2)2+…+(bxn-yn)2
=n2+2[bx1+bx2+…+bxn-y1-y2-…-yn]+(bx1-y1)2+(bx2-y2)2
+…+(bxn-yn)2
=n2+2n[ ]+(bx1-y1)2+(bx2-y2)2+…+(bxn-yn)2
把上式看作的二次函数,要使d最小,则=
把=
代入上式
d=(bx1-y1)2+(bx2-y2)2+…+(bxn-yn)2-n( )2
令d=(bx1-y1)2+(bx2-y2)2+…+(bxn-yn)2-n( )2
=b2(x12+x22+…+xn2- )-2b(x1y1+x2y2+…+xnyn- )
+y12+y22+…+yn2-
把上式看作b的二次函数,要使d最小,
则b
b
=
d=[y1-(+bx1)]2+[y2-(+bx2)]2+…+[yn-(+bxn)]2
这样得到的直线方程称为线性回归方程,,b是线性回归方程y=a+bx的系数.
先研究简单的情形,考虑3对数据
,即:求a,b的值,使得偏差yi-(a+bxi)(i=1.2,3)的平方和最小,即达到最小,下面我们用向量的方法解决这个问题.
首先,用向量的语言描述问题.
要用向量的语言描述偏差yi-(a+bxi)(i=1,2,3),容易想到将偏差作为向量的分量,即,,).
这样,“求α,b的值,使得偏差yi-(a+bxi)(i=1,2,3)的平方和最小”的问题就等价于:求a,b的值,使得向量,,).的长度最小.下面我们分析这个向量;
)
=,,)—,,)
=—[(a ,a ,a)+,,)]
=—
,其中,
,均为已知向量.至此,“求a,b的值,使得偏差yi-(a+bxi)(i=1,2,3)的平方和最小”的问题就转化为:求a,b的值,使的长度最小.
其次,用向量的方法思考问题.
求a,b的值,使| |最小
如图,和确定一个平面,记作α.对任意的a,b,都在平面α内;平面α内的任意向量都可以用来表示;当a,b变化时,的端点M是平面α内的一个动点.
如图,,其中,点Y是平面α外的一个定点,点M是平面α内的一个动点.
由点到平面距离的定义,当垂直于平面α 时,它的长度最短,即与平面α垂直时,的长度最小.
要使与平面α垂直,只需其与平面α内的两个不共线的向量和均垂直.
求| |最小时的a,b的值,就是求与和的数量积分别为0时的a ,b的值,
即:
用向量的坐标表示,即:
记
记
--b
如果把它的解记作,得到:
,
①,②两式推广到n对数据(x1,y1),(x2, y2 ),…,(Xn, yn)仍然成立,即:使[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2
达到最小的a ,b取值为
,,
其中,,.
假设样本点为(x1,y1),(x2, y2 ),…,(Xn, yn), 直线方程称作关于的线性回归方程,相应的直线称作 关于的回归直线(如下图),,是这个线性回归方程的系数,其中,,.
变量之间没有函数关系,我们得到的线性回归方程只是对其变化趋势的一种近似描述,并不是函数关系.
某小卖部6天卖出热茶的杯数Y(单位:杯)与当天气温X(单位:℃)之间存在近似的线性关系.数据如下表.
气温/ 26 18 13 10 4 -1
杯数/杯 20 24 34 38 50 64
(1)试用最小二乘法求出Y关于X的线性回归方程;
(2)如果某天的气温是-3 ℃,请预测这天可能会卖出热茶多少杯.
解 (1)先画出散点图,根据点的分布,得到两个变量很可能有近似的线性关系.
某小卖部6天卖出热茶的杯数Y(单位:杯)与当天气温X(单位:℃)之间存在近似的线性关系.数据如下表.
气温/ 26 18 13 10 4 -1
杯数/杯 20 24 34 38 50 64
(1)试用最小二乘法求出Y关于X的线性回归方程;
(2)如果某天的气温是-3 ℃,请预测这天可能会卖出热茶多少杯.
再将6对数据分别记为,,,代入,的表达式,,,可得到,.则线性回归方程为 Y=57.5571.648X.
某小卖部6天卖出热茶的杯数Y(单位:杯)与当天气温X(单位:℃)之间存在近似的线性关系.数据如下表.
气温/ 26 18 13 10 4 -1
杯数/杯 20 24 34 38 50 64
(1)试用最小二乘法求出Y关于X的线性回归方程;
(2)如果某天的气温是-3 ℃,请预测这天可能会卖出热茶多少杯.
(2)当时,根据(1)中得到方程Y=57.5571.648X,可估计,y=57.5571.648×(-3)63.即当某天的气温是℃时,卖出热茶的杯数估计为63.
如果样本点只有两个,那么上面用最小二乘法估计得到的直线与用两点式求出的直线方程一致吗?试给出证明.
一致
两点式求出的直线方程y=
+y1
=
+
最小二乘法
则b
=
a=
=
=
所以一致
最小二乘法:对于给定的两个变量X和Y(如身高和体重),假设有n对观测值,,,,,拟合的直线是,令其满最小.换句话说,我们希望a,b的取值能使上式达到最小.这个方法称为最小二乘法.
线性回归方程的系数的计算公式:,,其中,,.
直线方程称作关于的线性回归方程,相应的直线称作关于的回归直线,,是这个线性回归方程的系数.
课堂小结
作业:教材240,241页练习题全做.
$