内容正文:
8.2.2 一元线性回归模型
参数的最小二乘估计
第八章 成对数据的统计分析
人教A版2019选择性必修第三册
前情回顾
0
研究统计问题的一般流程:
单一数据
成对数据
单一数据
成对数据
成对数据
一元线性回归模型
数据预报?
前情回顾
0
一元线性回归模型
如果用x表示父亲身高,Y表示儿子身高,表示随机误差.假定随机误差的均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示为:
称为关于的一元线性回归模型.
称为因变量或响应变量;
称为自变量或解释变量;
:称为截距参数,
称为斜率参数;
是与之间的随机误差.
学习目标
1
2
3
结合具体实例,了解一元线性回归模型的统计意义.
掌握一元线性回归模型参数的最小二乘估计方法.
会通过残差分析和利用R2判断回归模型的拟合效果.
0
新课引入
0
具有相关关系的两个变量的一元线性回归模型Y=bx+a+e中,
预测值与真实值一样吗?预测值与真实值的误差大些好还是小些好?
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.
读教材
0
阅读课本P107-P114,5分钟后完成下列问题:
1. 怎么求经验回归方程?公式是什么?
我们一起来探究“一元线性回归模型
参数的最小二乘估计”吧!
2. 残差分析的定义及其决定系数对回归模型的影响?
01
03
02
目录
1 最小二乘估计
学习过程
2 残差分析
3 题型训练
1
新知探究
探究1 如何从散点图中找到一条适当的直线,使这些散点在整体上与这条直线最接近?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
方案1:直线两侧分布的点的个数基本相同.
基本相同不严格且必存在误差,不同人画的差别可能较大。
故不可行
儿子身高/cm
儿子身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 176 176 170 170 185 176 178 174 170 168 178 172 165 182 父亲身高/cm
1
新知探究
探究1 如何从散点图中找到一条适当的直线,使这些散点在整体上与这条直线最接近?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
方案2:每两个点确定一条直线,求出这些直线的斜率、截距的平均数,以平均数作为所求直线的斜率和截距。
数据多时运算量比较大,难操作,
部分直线斜率或者截距可能不存在。
故不可行
儿子身高/cm
儿子身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 176 176 170 170 185 176 178 174 170 168 178 172 165 182 父亲身高/cm
1
新知探究
探究1 如何从散点图中找到一条适当的直线,使这些散点在整体上与这条直线最接近?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
方案3:尽可能多的点落在直线上.
直线可能有多条,
不能用到全部数据。
故不可行
儿子身高/cm
儿子身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 176 176 170 170 185 176 178 174 170 168 178 172 165 182 父亲身高/cm
1
新知探究
探究1 如何利用成对样本数据,用数学方法刻画“从整体上看,各散点与直线最接近”?
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
由 ,
得
显然越小,表示点与点
的“距离”越小,即样本数据点离直线
的竖直距离越小,如右图所示.
.
.
特别地,当时,表示点在这条直线上.
1
新知探究
探究1 如何利用成对样本数据,用数学方法刻画“从整体上看,各散点与直线最接近”?
因此,可以用这个竖直距离之和来刻画各样本观测数据与直线的“整体接近程度”.
因为绝对值使得计算不方便,通常用
各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”.
,是已知的成对样本数据,
所以由和所决定,即它是和的函数;
因为,即它是随机误差的平方和,这个和
当然越小越好,所以我们取使达到最小的和的值,作为截距和斜率的估计值.
儿子身高/cm
儿子身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 176 176 170 170 185 176 178 174 170 168 178 172 165 182 父亲身高/cm
1
新知探究
记,.
,
思考: 下面利用成对样本数据求使取最小值的,.
所以 .
1
新知探究
思考: 下面利用成对样本数据求使取最小值的,.
所以 .
上式各项均为非负数且前项与无关,故要使取到最小值,后一项的值应为0,即.
.
上式是关于的二次函数,因此要使取得最小值,当且仅当的取值为:
1
新知1--最小二乘估计
最小二乘估计
最小二乘法:我们将=x+称为Y关于x的 ,
也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归
方程的方法叫做: ,求得的,叫做b,a的 ,
经验回归方程
其中==,=-.
最小二乘法
最小二乘估计
性质:(1)经验回归直线=x+必过点(,);(2)
(3)利用回归方程可以求估计值。
学以致用
63
学以致用
解:经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线
的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.
ABD
学以致用
例3 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格
进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
学以致用
例3 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格
进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本
是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?
解:(2)设工厂获得的利润为L元,依题意得:L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000 =-20(x-8.25)2+361.25.
故当单价定为8.25元时,工厂可获得最大利润.
01
03
02
目录
1 最小二乘估计
学习过程
2 残差分析
3 题型训练
2
新知探究
思考:求探究1中的经验回归方程?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
利用公式==,=-
可以计算出:,,
得到儿子身高关于父亲身高的经验回归方程为
,相应的经验回归直线如图所示:
2
新知探究
思考1:当时,. 如果一位父亲的身高为,他儿子长大成人后的身高一定是吗?为什么?
不一定,因为还有其他影响儿子身高的因素. 不过,我们可以作出推测,
当父亲身高为时,儿子身高一般在左右.
实际上,如果把这所学校父亲身高为的所有儿子身高作为一个子总体,那么是这个子总体的均值的估计值.
这里的经验回归方程,其斜率可以解释为:
父亲身高每增加,其儿子身高平均增加.
思考2:斜率0.839有什么含义?
2
新知探究
探究2 当时,预测值与观测值相同吗?误差是多少?当时呢?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
当时,观测值为176,误差有4.413cm.
当时,观测值为176,误差有cm.
残差观测值预测值:即ei=
2
新知2--残差分析
残差分析
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值; 观测值减去预测值所得的差称为残差,即残差观测值预测值.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,
以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差平方和法:残差平方和(yi-)2越 ,模型的拟合效果越好.
决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越 ,
模型的拟合效果越 ,R2越 ,模型的拟合效果越 .
小
大
好
小
差
2
新知2--残差图
残差图
我们可以得到其他的残差,如下表所示.
残差图:作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的
图形称为残差图.
好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区域内,且带状区域越窄,说明模型拟合效果越好.
越好越窄
学以致用
例1 判断下列正误:
解:经验回归方程前要进行相关性检验;利用经验回归方程求出的值是预测值;
R2越大,线性回归模型的拟合效果越好。
(1).求经验回归方程前可以不进行相关性检验.( )
(2).在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )
(3).利用经验回归方程求出的值是准确值.( )
(4).残差平方和越小,线性回归模型的拟合效果越好.( )
(5).R2越小,线性回归模型的拟合效果越好.( )
√
√
×
×
×
学以致用
例2 甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
哪位同学建立的回归模型拟合效果最好( )
A.甲 B.乙 C.丙 D.丁
解:决定系数R2越大,表示回归模型的拟合效果越好,故选A.
A
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
学以致用
例3 对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,
则下列模型拟合精度最高的是( )
解:用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故选A.
B
学以致用
例4 根据下表数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,
描述残差图的特点:
解:先画人体的脂肪含量与年龄的散点图, 由散点图可以发现人体的脂肪含量与年龄呈现近似线性关系,可以用一元线性回归模型刻画;用y表示脂肪含量,x工表示年龄. 用统计软件计算,可得到人体的脂肪含量关于年龄的经验回归方程为:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
学以致用
例4 根据下表数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,
描述残差图的特点:
解:画残差图,通过残差图可以看到,
残差比较均匀地分布在横轴的两边.
说明残差比较符合一元线性回归模型
对随机误差的假设:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
0
1
2
3
4
-1
-2
-3
0
10
20
30
40
50
残差/cm
年龄
•
•
•
•
•
•
•
•
60
70
•
•
•
•
•
•
01
03
02
目录
1 最小二乘估计
学习过程
2 残差分析
3 题型训练
3
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
题型1--一最小二乘法
x 6 8 10 12
y 2 3 5 6
请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程 ;
3
例2 随着我国经济的发展,居民储蓄存款逐年增长;设某地区城乡居民人民币储蓄存款(年底余额)如下表:
题型1--最小二乘法
年份 2015 2016 2017 2018 2019
时间代号x 1 2 3 4 5
储蓄存款y(千亿元) 5 6 7 8 10
3
例2 随着我国经济的发展,居民储蓄存款逐年增长;设某地区城乡居民人民币储蓄存款(年底余额)如下表:
题型1--最小二乘法
(2)用所求经验回归方程预测该地区2025年(t=11)的人民币储蓄存款?
所以预测该地区2025年的人民币储蓄存款为16.8千亿元.
年份 2015 2016 2017 2018 2019
时间代号x 1 2 3 4 5
储蓄存款y(千亿元) 5 6 7 8 10
3
例3 某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x之间的关系,随机统计了连续四月的销售量与其平均气温,其数据如表:
题型1--最小二乘法
时间 二月 三月 四月 五月
旬平均气温x 3 8 12 17
旬销售量y(件) 55 m 33 24
(1)表中数据m=____;
(2)气象部门预测三月中旬的平均气温约为22,据此估计,该品牌的保暖衬衣在
六月的销售量约为____件.
40
14
故六月中旬的销售量约为14件.
3
例4 某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
题型2--残差分析
x 14 16 18 20 22
y 12 10 7 5 3
借助残差平方和和R2说明回归模型拟合效果的好坏?
解:列出残差表:
所以回归模型的拟合效果很好.
3
例5 为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
题型2--残差分析
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
解:残差表如下:
所以回归模型的拟合效果很好.
课堂小结
最小二乘估计
最小二乘法:我们将=x+称为Y关于x的 ,
也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归
方程的方法叫做: ,求得的,叫做b,a的 ,
经验回归方程
其中==,=-.
最小二乘法
最小二乘估计
性质:(1)经验回归直线=x+必过点(,);(2)
(3)利用回归方程可以求估计值。
课堂小结
残差分析
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值; 观测值减去预测值所得的差称为残差,即残差观测值预测值.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,
以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差平方和法:残差平方和(yi-)2越 ,模型的拟合效果越好.
决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越 ,
模型的拟合效果越 ,R2越 ,模型的拟合效果越 .
小
大
好
小
差
例1由变量x与y相对应的一组成对样本数据(1,y1),(5,y2),(7,y3),(13,y4),(19,y5)得到的经验回归方程为=2x+45,则=____.
∴=2×9+45=63.
解: ∵=(1+5+7+13+19)=9,=2+45,
例2 (多选)对于经验回归方程=x+ (>0),下列说法正确的是( )
A.当x增加一个单位时,的值平均增加个单位
B.点(,)一定在=x+所表示的直线上
C.当x=t时,一定有y=t+
D.当x=t时,y的值近似为t+
解:(1)由于=×(8+8.2+8.4+8.6+8.8+9)=8.5,
=×(90+84+83+80+75+68)=80.
所以=-=80+20×8.5=250,
从而经验回归方程为=-20x+250.
(1)求经验回归方程=x+,其中=-20;
=x+
解:==9,
==4,
=62+82+102+122=344,
iyi=6×2+8×3+10×5+12×6=158,
===0.7,
=-=4-0.7×9=-2.3,
故经验回归方程为=0.7x-2.3.
解:由题意可知,n=5,=i==3,
=i==7.2.
又=55,iyi=120,
所以=1.2,=-=7.2-1.2×3=3.6.
故所求经验回归方程为=1.2x+3.6.
(1)求y关于t的经验回归方程=t+;
解:将t=11代入=1.2x+3.6,可得=1.2×11+3.6=16.8(千亿元),
解:(1)由=38,得m=40.
解:(2)由=-得=58,故=-2x+58,
当x=22时,=14,
由表中数据算出经验回归方程=x+
中的=-2,样本点的中心为(10,38).
经验回归方程是=-1.15x+28.1.
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以2=0.3, 2=53.2,
R2≈0.994,
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.237
-1.367
-0.537
0.413
1.413
2.313
所以2≈0.013 18,2≈14.678 3.
所以R2≈1-≈0.999 1,
已知经验回归方程为=0.183x+6.285,求R2?
$$