内容正文:
8.2一元线性回归模型及其应用
8.2.2一元线性回归模型参数的最小二乘估计
(第一课时)
第八章
成对数据的统计分析
人教A版选择性必修第三册·高二
章节导读
成对数据的统计相关性
变量的相关关系
样本相关系数
一元线性回归模型及其应用
列联表与独立性检验
一元线性回归模型
一元线性回归模型参数的最小二乘估计
分类变量与列联表
独立性检验
学 习 目 标
1
2
3
结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义
了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法
针对实际问题,会用一元线性回归模型进行预测,培育数据分析、数学运算的核心素养
新知导入
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.
由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
新知探究
探究 利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
思路1:先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线.
思路2:可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.
新知探究
思路3:在散点图中多取几对点,确定出几条直线,再分别求出这些直线的斜率、截距的平均数作为所求直线的斜率和截距.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
新知探究
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), ‧‧‧, (xn, yn), 由yi=bxi+a+ei (i=1, 2, ‧‧‧, n),得
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如图所示.
当ei = 0时,表示点(xi , yi)在这条直线上.
方便计算
n个竖直距离之和
随机误差平方和
刻画各样本观测数据与直线y=bx+a的“整体接近程度”
新知探究
在上式中, xi,yi (i=1,2,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数.
所以我们取使Q达到最小的a和b值, 作为截距a和斜率b的估计值.
Q越小越好.
新知探究
问题1 如何求a,b的值,使 最小?
新知探究
上式右边各项均为非负数,且前项与无关.所以,要使Q取到最小值,后一项的值应为0,即 .此时
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
新知探究
综上,当a, b的取值为
时,Q达到最小.
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用该公式求得的 叫做b, a的最小二乘估计.
这里的“二乘”是平方的意思.
易得:(1)经验回归直线必过样本中心;
(2)与相关系数r符号相同.
新知探究
问题2 你能否利用上节课的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
对于上表中的数据,利用公式可以计算出
得到儿子身高Y关于父亲身高x的经验回归方程为
相应的经验回归直线如图所示.
新知探究
追问1 当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
新知探究
追问2 根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?
根据经验回归方程中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.
分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则
新知探究
追问3 根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?你怎么看这个判断?
通过经验回归方程 =0.839x +28.957,令 =x,则x=179.733,即当父亲身高为179.733cm时,儿子的平均身高与父亲的身高一样.
英国著名统计学家高尔顿(F.Galton,1822-1911)把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
新知探究
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差分析
例如,对于下表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y6=176(cm),预测值为 残差为176-173.265=2.735(cm).
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
新知探究
类似地,我们还可以得到其他的残差,如下表所示.
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 66.553 -1.553
14 180 182 179.977 2.023
观察残差表可知,残差有正有负,残差的绝对值最大是4.413.
新知探究
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm
•
•
•
•
•
•
•
•
•
•
•
•
•
•
残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.
通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
新知探究
问题4 观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
(1)
(2)
(3)
(4)
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
可见, 只有图(4)满足一元线性回归模型对随机误差的假设.
新知探究
问题5 根据对残差的学习,能否归纳出残差的一些性质?
2.残差的平方和越小越好;
3.原始数据中的可疑数据往往是残差绝对值过大的数据;
4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.
1.残差等于观测值减预测值
残差的性质:
巩固练习
课本113页
1. 对一元线性回归模型参数a和b的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘ 整体接近程度’的定义,可以得到参数a和b不同的估计,只要‘整体接近程度’定义合理即可.”你觉得这个说法对吗?
这个说法是对的. 选择刻画散点趋势的直线可以有不同的标准,取决于“整体接近程度”的定义,定义不同,得到参数a和b的估计往往也不同. 例如,我们可以用 刻画“整体接近程度”得到参数a和b的最小二乘估计,也可以用 刻画“整体接近程度”得到参数a和b的估计,二者估计的结果一般不同.
解:
巩固练习
课本113页
∴估计女儿的身高为168 cm左右.
2. 假如女儿身高y (单位: cm)关于父亲身高x (单位: cm)的经验回归方程为 已知父亲身高为175 cm,请估计女儿的身高.
解:
巩固练习
课本113页
3. 根据根据8.1.1节表8.1-1中数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
解:先画人体的脂肪含量与年龄的散点图,如图(1)所示. 由散点图可以发现人体的脂肪含量与年龄呈现近似线性关系,可以用一元线性回归模型刻画.
用y表示脂肪含量,x工表示年龄. 用统计软件计算,可得到人体的脂肪含量关于年龄的经验回归方程为
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
巩固练习
课本113页
3. 根据根据8.1.1节表8.1-1中数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
解: 画残差图,如图(2)所示,通过残差图可以看到,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型对随机误差的假设.
0
1
2
3
4
-1
-2
-3
-4
0
10
20
30
40
50
残差/cm
年龄
•
•
•
•
•
•
•
•
60
70
•
•
•
•
•
•
(2)
巩固练习
课本113页
经计算可知残差的总和为0.027. 但是
4. 计算表8.2-2中的所有残差之和,你能发现什么规律?
解:
即理论上残差的总和应等于0,这个误差是由于计算过程中四舍五入的原因导致.
巩固练习
课本113页
解:
5. 假设变量x与变量Y的n对观测数据为(x1, y1),(x2, y2),‧‧‧,(xn, yn),两个变量满足一元线性回归模型
请写出参数b的最小二乘估计.
则Q是关于b的二次函数. 要使Q小值,当且仅当b的取值为
最小二乘法的概念及辨析
题型一
题型探究
【例1】(多选)由变量x和变量y组成的10个成对样本数据…
得到的经验回归方程为设过点,的直线方程为,记,,则( )
A.变量x,y正相关
B. 若 1,则1.9
C.经验回归直线至少经过中的一个点
D.2<2
ABD
[解析]对于A:回归方程一次项系数大于零是正相关,A正确;
对于B: 1代入回归直线可得2×1-0.1=1.9,B正确;
经验回归直线可以不经过任意一个点,C错误;
根据回归直线的求法最小二乘法值,回归直线的残差平方和最小,D正确.
故选:ABD.
最小二乘法的概念及辨析
题型一
题型探究
解题感悟
这类概念辨析题,只需要根据回归直线的相关性质逐一判断.
经验回归方程与最小二乘法
题型二
题型探究
【例2】 某个服装店经营某种服装,在某周内的纯获利 (单位:元)与该周这种
服装的销售量 (单位:件)之间的一组数据如下表:
3 4 5 6 7 8 9
66 69 73 81 89 90 91
(1)求样本点的中心;
[解析] 由题表得, ,
,
所以样本点的中心为 .
经验回归方程与最小二乘法
题型二
题型探究
(2)画出散点图;
[解析] 散点图如下:
(3)求关于 的经验回归方程(结果保留两位小数).
[解析] 由题表得,, .
又,,所以 ,
,
所以关于的经验回归方程为 .
经验回归方程与最小二乘法
题型二
题型探究
提分笔记
求经验回归方程的一般步骤
(1)收集样本数据 ;
(2)作出散点图,确定, 具有线性相关关系;
(3)计算,,,或, ;
课堂达标
1.已知变量关于的经验回归方程为,且变量, 之
间的一组相关数据如下表所示,则下列说法错误的是( )
6 8 10 12
6 3 2
B
A. 变量,之间呈负相关关系 B.
C. 当时, D. 该经验回归直线必过点
课堂达标
2.在某研究所进行的一次试验中,得到了大量试验数据 ,剔除掉一些不合理数据
后,得到了四组数据,,, ,则由这四组数据,可以得到
关于 的经验回归方程为( )
B
A. B.
C. D.
[解析] 与 呈正相关, 排除选项A,C,
由四组样本数据,可得样本点的中心为 .
经验回归直线必过样本点的中心,
.故选B.
课堂达标
3.根据如下样本数据,得到经验回归方程 ,则( )
3 4 5 6 7 8
4.0 2.5 0.5
B
A. , B. , C. , D. ,
[解析] 作出散点图,并画出经验回归直线,如图所示.
由图可知,经验回归直线的斜率,
当时, .故选B.
课堂达标
4.(多选题)近年来,考研成为大学生的热门选择,某研究机构为了解大学生的考研情
况,对2018年至2022年研究生报考人数(单位:万人)作出统计如下表:
年份 2018 2019 2020 2021 2022
年份代码 1 2 3 4 5
研究生报考人数 万人 238 290 341 377 457
根据上述统计数据求得研究生报考人数与年份代码 满足的经验回归方程为
,则( )
A.
B. 经验回归直线经过点
C. 2018年至2022年每年的研究生报考人数约增加183.1万人
D. 预测2024年的研究生报考人数为550.6万人
课堂达标
[解析] 由题表得, ,则样本点的中
心为,所以,解得 ,故A正确;
因为 ,所以经验回归直线不经过点
,故B错误;
由A选项知,经验回归方程为 ,所以每年的研究生报考人数约增
加52.5万人,故C错误;
令,则 ,故预测2024年的研究生报考人数为550.6万人,
故D正确.
故选 .
课堂小结
1. 经验回归方程:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 最小二乘估计:
经验回归方程中的参数 计算公式为:
3.残差分析
残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
感谢聆听!
$