内容正文:
第七章 统计案例
7.1.2 一元线性回归方程
同学们,一到夏天,最离不开的家电就是“空调”!空调能帮我们对抗炎热,但随之而来的还有一项 “夏日支出”—— 电费. 最近老师收集了某家庭 7、8 月份每周的 “周平均气温” 和 “周电费” 数据,大家一起看看这组生活数据里藏着什么规律:
周数 第1周 第2周 第3周 第4周 第1周 第2周 第3周 第4周
气温/℃ 24 26 27 30 32 35 38 40
电费/元 21 25 30 35 42 45 48 50
气温越高,空调用得越久,电费也越贵!
思考:根据上述数据,我们能预测九月份某周气温下的电费情况吗?
对于给定的两个变量 X 和 Y(如气温和电费),假设有 n 对观测值 (x1,y1),(x2,y2),(x3,y3),...,(xn,yn).
我们可以拟合的出一条直线 Y = a + bX,直线上的任意一点,要尽可能的接近所有观测点,则样本点与这条直线的距离可表示为:
使得 a,b 的取值能使上式达到最小的方法称为最小二乘法.
最小二乘法
先研究简单的情形,考虑 3 对数据(x1,y1),(x2,y2),(x3,y3),即:求a,b的值,使得偏差yi-(a+bxi)(i=1,2,3)的平方和最小,
[y1-(a+bx1)]2+[y2-(a+bx2)]2+[y3-(a+bx3)]2 达到最小.
下面用向量的方法解决这个问题(用向量的语言描述问题)
“求a,b的值,使得偏差yi-(a+bxi)(i=1,2,3)的平方和最小”
等价于“求a,b的值,使得向量(y1-(a+bx1),y2-(a+bx2),y3-(a+bx3))的长度最小”
(y1-(a+bx1) , y2-(a+bx2) , y3-(a+bx3))
=(y1 , y2 , y3)-(a+bx1 , a+bx2 , a+bx3)
=(y1 , y2 , y3)-[(a , a , a)+(bx1 , bx2 , bx3)]
=(y1 , y2 , y3)-[a(1 , 1 , 1)+b(x1 , x2 , x3)]
其中, 均为已知向量.
问题转化为:求a,b的值,使 的长度最小.
用向量的方法思考问题.
如图, 和 成确定一个平面,记作α.
由平面向量基本定理可知,对任意的a,b, 都在平面α内;
反之,平面α内的任意向量都可以用 来表示.
当a,b变化时, 的端点M是平面α内的一个动点.
如图, ,其中,点Y是平面 α 外的一个定点.
要使 最小,即 最小,由点到平面距离的定义,
当 ⊥α时,线段MY的长度最短,
即 与平面α垂直时, 的长度最小.
根据线面垂直的判定定理,要使 与平面α垂直,只需其与平面α内的两个不共线的向量 和 均垂直.
用向量的坐标表示,即
化简,得
记
则
用向量的方法解决问题.
求 最小时的a,b的值,就是求 与 和 的数量积分别为0时的a,b的值,即
其中,
如果把它的解记作 得到:
①
②
①,② 两式推广到 n 对数据 (x1,y1),(x2,y2),...,(xn,yn) 仍然成立,
即: 达到最小的 a,b 取值为
直线方程 称作 Y 关于 X 的线性回归方程,相应的直线称作 Y关于 X 的回归直线 (如图), 是这个线性回归方程的系数.
根据表中气温、电费的数据,利用上述方法得到气温和电费满足的线性回归方程为 Y = 1.83X - 20.79.
由此可知,气温为 30 ℃ 时,电费大约为 34.11 元;同理,假设 9 月份第1周的平均气温为 36 ℃,则本周电费大约为 45.09 元.
注意:气温和电费之间并没有函数关系,得到的线性回归方程只是对其变化趋势的一种近似描述. 对给定的一个周平均温度,人们可以用这个方程来估计这周的平均电费;但模型需要根据数据实际数据进行一定修正.
周数 第1周 第2周 第3周 第4周 第1周 第2周 第3周 第4周
气温/℃ 24 26 27 30 32 35 38 40
电费/元 21 25 30 35 42 45 48 50
例1:某小卖部6天卖出热茶的杯数Y(单位:杯)与当天气温X(单位:℃)之间存在近似的线性关系. 数据如表.
(1)试用最小二乘法求出 Y 关于 X 的线性回归方程;
(2)如果某天的气温是-3℃,请预测这天可能会卖出热茶多少杯?
气温/℃ 26 18 13 10 4 -1
杯数/杯 20 24 34 38 50 64
(1)画出散点图中可以看出,
表中的两个变量有近似的线性关系.
计算求得
列表:
由 的表达式可得
∴Y对X的线性回归方程为Y=57.557-1.648X.
(2)如果某天的气温是-3℃,请预测这天可能会卖出热茶多少杯?
气温/℃ 26 18 13 10 4 -1
杯数/杯 20 24 34 38 50 64
(2) 由最小二乘法得出的线性回归方程可知,当某天的气温是-3℃时,卖出热茶的杯数估计为57.557-1.648×(-3)=62.501≈63.
X~B(n, )
求线性回归方程的一般步骤:
① 收集成对数据,设为 (xi,yi) (i = 1,2,…,n);
② 作出散点图,确定 x,y 具有线性关系;
③ 把数据制成含 xi,yi,xi2,yi2,xi yi,合计的表格.
④ 把数据代入 的表达式计算即可求得.
根据今天所学,回答下列问题:
1. 的表达式是什么?
2. 求线性回归方程的一般步骤是什么?
$