内容正文:
8.2一元线性回归模型及其应用
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相
关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,
以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两
个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机
变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随
机关系,并通过模型进行预测。
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计
模型,并利用模型进行预测的问题.
8.2.1一元线性回归模型参数的最小二乘估计
(第一课时)
一、课前回顾
1某地10户家庭的年收入和年饮食支出的统计资料如表所示
年收入x/万元
2
6
6
6
78
10
年饮食支出y万元
0.9
1.41.62.02.11.91.82.12.22.3
根据表中数据,判断两个变量是否线性相关,计算样本相关系数,并刻画它们的相关程度
3
2
1
012345678910x
解:先画出散点图,观察散,点图,可以看出样本点都集中在一条直线的附近,由此可以判断家庭
的年收入和年饮食支出线性相关.作散点图如图所示根据样本相关系数的定义,可得
10
10
(x-x)y1-)
?2x1077
2=1
2-1
002102、
10
10
10
10
-1072
7-1
10
10
10
因为7=6,7=1.83,??=406,??号=35.13,?xw=117.7,
=1
2=1
2=1
代入①得r=
117.7-106@1.83
0.91,
√406-10回62回V35.13-10☑1.832
所以可以推断出家庭年收入和年饮食支出正线性相关,且相关程度很强
二、学习目标
1.了解一元线性回归模型及随机误差.
2.了解一元线性回归模型、残差、残差分析的概念.
3.了解最小二乘法的思想方法,会求经验回归方程,
并用回归方程进行预报
三、自学指导
105页到112页完成下列问题与例题
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是
正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研
究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,
得到的数据如表8.2-1所示.
表8.2-1
编号
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建
立直角坐标系,再将表8.2-1中的成对样本数据表示为散点图,如图8.2-1
所示.可以发现,散点大致分布在一条从左下角到右上角的直线附近,
表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数
为,表明儿子身高和父亲身高正线性相关,且相关程度较高.
儿子身高/cm
190
185
180
175
170
165
父亲身高/cm
160
160
165
170
175
180
185
图8.2-1
思考
根据表8.2-1中的数据,儿子身高和父亲身高这两个变量之间的关系可以
用函数模型刻画吗?
在表8.2-1的数据中,存在父亲身高相同而儿子身高不同的情况例如,第6个和
第8个观测的父亲身高均为172cm,而对应的儿子身高分别为176cm和174cm:
同样,第3,4两个观测中,儿子身高都是170cm,而父亲身高分别为173cm
和169cm.可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模
型刻画图8.2-1中的散点大致分布在一条直线附近,表明儿子身高和父亲身高
这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父
亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生
活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归
模型其中,随机误差是一个随机变量.
编号
10
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差的
均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示
Y=bx+a+e,
为
(1)
E(e)=0,D(e)=o2
我们称(I)式为Y关于x的一元线性回归模型(simple linear regression
model)·其中,称为因变量或响应变量,x称为自变量或解释变量;
a
和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之
间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确
定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部
分是随机的.如果=0,那么Y与x之间的关系就可用一元线性函数模型来
描述.
为什么假设E(e)=0,而不假设其为某个不为0的常数?