内容正文:
8.2.2一元线性回归模型参数
的最小二乘估计
复习引入
Σ(x-0-)
1.样本相关系数r=
∑y,-n
区-2-可区2广-m
2.相关系数的性质:
①当>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
②|rl≤1:
③当|r越接近1时,成对数据的线性相关程度越强;当|r越接近0时,成
对数据的线性相关程度越弱;特别地,当||=0时,成对数据的没有线性相关
关系;当||=1时,成对数据都落在一条直线上.
情境引入
高尔顿,1889年,他在研究祖先与后代身高之间的关系时发现:身高
较高的父母,他们的孩子也比较高,但这些孩子的平均身高并没有他们
父母的平均身高高;身高较矮的父母,他们的孩子也比较矮,但这些孩
子的平均身高却比他们父母的平均身高高.
一高尔顿把这种后代身高向中间值靠近的趋势称为“回归现象”·
后来,人们把有一个变量的变化去推测另一个变量的变化的方法称
为“回归方法”.
那我们如何去求一元线性回归方程呢?
儿子身高/cm
如果数据的散点图趋势近似一条
190
直线,就可以用线性回归方程来
185
拟合这组数据,并用来预报或决
180
策.
175
回归方程:=x+a
170
165
Σ(x-x)0-)
∑xy-nxy
160
i-1
i-1
160
165
170
175
父亲身高/c開
∑(x-x)2
∑x-nx
-1
-1
这种求经验回归方程的方法叫作最小二
乘法,求得的b,a叫作b,a的最小二乘
a-y-bx.
估计.
(平均数一定在回归直线上)
例题讲解
X
2
3
4
【例1】已知x,y取值如表:
6
4
5
,如果y与x线
性相关,求y与x的线性回归方程.
【例2】已知x,y取值如表:
X
0
1
2
3
1
3
5
如果y与x线性相关,则y与x的线性回归直线必过点
【例3】某地近十年粮食需求量逐年上升,下表是不分统计数据:
第x年
1
2
3
4
5
需求量y
3
6
5
7
8
(1)利用所给的数据求两变量之间的回归方程.
(2)预测该地第6年的粮食需求量
【例4】某研究机构对高三学生的记忆力X和判断力y进行统计分析,得下表数据:
x
6
8
10
12
2
3
5
6
请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程y=bx十a;
2
新知2残差
A
残差:残差=观测值-预测值,即e=y-yi·
儿子身高/cm
190
185
●
180
175
170
165
160
160
165
170
175
180
185
父亲身高/cm
残差越小,效果越好!
新知2
残差
残
残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数
差
图
据,或体重估计值等,这样作出的图形称为残差图.
个残差/cm
5
3
2
越越
父亲身高fcm
0
窄好
-1
160165
170175180
185
2345
好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区
域内,且带状区域越窄,说明模型拟合精度越高,预报效果越好,
新知3
2
决定系数和线性相关系数的关系
n
(yi-y)2
R2=2=1-4
=1
∑y-)2
i=1
(1)r∈[0.75,1],表明两个变量正相关很强;
r∈[-1,-0.75],表明两个变量负相关很强:
r∈[-0.25,0.25],表明两个变量正相关很强;
(2)0≤R2≤1
R2越大,表示残差平方和越小,即模型的拟合效果越好:
R2越小,表示残差平方和越大,即模型的拟合效果越差.
学以致用
例1判断下列正误:
(1).求经验回归方程前可以不进行相关性检验.(X)
(2).在残差图中,纵坐标为残差,横坐标可以选为样本编号.(√)
(3).利用经验回归方程求出的值是准确值.(X)
(4).残差平方和越小,线性回归模型的拟合效果越好.(√)
(5).R2越小,线性回归模型的拟合效果越好.(X)
解:经验回归方程前要进行相关性检验:利用经验回归方程求出的值是预测值:
R2越大,线性回归模型的拟合效果越好。
学以致用
例2某兴趣小组在做实验时记录了相应的x与y的几组数据,如下表.
1
2
3
4
5
6
0
2
1
3
3
4
(1)根据表中数据作出散,点图,并求y关于x的经验回归方程;
(2)计算(1)中模型的决定系数R2,并进行残差分析.
解:()根据表中数据,作出散点图如下.
奇
5
F6,4)
D(4,3)
32
05,3)
1A(1,0)C3,1)
0123456x
学以致用
因为x=1+2+3+4+5+6
7
6
2
0+2+1+3+3+4
13
66
6
K654
F6,4)
D(4,3)
所以
=昌4-67
2,34
E(5,3)
昌好-6x2
1A(1,0)C(3,1)
0+4+3+12+15+24-6×3×号
6
5
0123456x
12+22+32+42+52+62-6×(3)2
a=y-成=吕-9×=-京
所以y关于x的经验回归方程是)=x-号
学以致用
(2)列表如下:
6
6
所以∑0y:-)2≈1.90476,∑y1-可2≈10.83333,
i=1
i=1
则R2=1-昌0r-02
6
1.90476
01-2
6
≈1
≈0.8242.
10.83333
由残差表中的数据可以看出,第2个和第3个样本点的残差都比较大,
需要检查在采集样本数据的时候是否有人为的错误,如果有的话,
需要纠正数据,重新求经验回归方程
学以致用
例3对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差
图,则下列模型拟合精度最高的是(A)
残差
残差
残差
残差
0.8
0.8
1.2
0.8
0.6
0.6
0.9
0.6
0.4
0.4
0.6
0.4
0.2
0.2
0.3
0.2
-0.2
1020304050607080编号
-0.2
020304050607080编号
-0.3
020304050607080编号
-0.2
020304050607080编号
-0.4
-0.4
-0.6
-0.4
-0.6
-0.6
-0.9
-0.6
-0.8
-0.8
-1.2
-0.8
B
C
D
解:用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域
中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度
越高,故选A
学以致用
例4甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4
种不同模型,计算可得它们的决定系数分别如下表:
甲
乙
丙
丁
R2
0.980.780.500.85
哪位同学建立的回归模型拟合效果最好(A)
A.甲
B.乙
C.丙
D.丁
解:决定系数R2越大,表示回归模型的拟合效果越好,故选A.
课堂小结
1、回归方程
y=bx+a
6-
(x1-)(y:-)∑x1y:-nx卫
i=1
2、残差=观泗随-深测值,欧::一y1决定系数
1=1
3、决家-乔数x
,--y
R2=1-▣
i=1
∑y-y-y